Выстраивать высокотехнологичное окружение эксплуатации - мониторинг, ci/cd, обеспечение безопасности и катастроф устойчивости;
Планировать и проводить работы на тестовых инсталляциях;
Оказывать консультации о параметрах работы системы, локализовывать проблемы, эскалировать баги на разработчиков, участвовать в развитии архитектуры систем;
Повышать наблюдаемость приложений;
Документировать активности в wiki/сиситемах трекинга, описывать архитектуру взаимодействия компонентов, процедур обновления;
Взаимодействовать с разработчиками продукта;
Участвовать в развитии SRE практик компании;
Проведение работ по повышению отказоустойчивости и масштабируемости сервисов.
Требования:
Уверенные знания в установке, настройке и администрировании ПО под Linux;
Опыт работы с командными оболочками Linux (обработка журналов событий awk, sed, написание скриптов для автоматизации и облегчения выполнения задач, и т.п.), знание python/go на базовом уровне;
Навыки DevOps, эксплуатация и поддержка готовых CI/CD окружений (Gitlab/Jenkis), работа с Terraform/Ansible;
Навыки работы с Docker, Kubernetes, диагностика проблем, эксплуатация и поддержка;
Опыт работы с системами мониторинга Prometheus stack, Grafana и т.п.;
Опыт работы с инцидентами анализировать, решать, передавать на следующую линию, учитывать в баг-треккинговой системе.
Опыт работы с Keycloak, Consul, Clickhouse, Postfix;
Опыт/понимание принципов работы высоконагруженных/высокодоступных систем;
Понимание основных принципов и подходов IaC;
Опыт работы и реализации CI/CD решений под Windows или Linux;