Zespół SRE (Site Reliability Engineering) to dwa zadania. Po pierwsze dbanie o niezawodność rozwiązań poprzez zbudowanie i propagowanie w firmie podejścia SRE znanego i promowanego przez Google, a po drugie projektowanie, przygotowanie oraz utrzymanie środowisk produkcyjnych i testowych do wdrażania aplikacji przygotowywanych przez nasze zespoły developerskie. Dodatkowo SRE odpowiada również za szeroko pojęte tematy DevOpsowe, takie jak np. budowanie aplikacji.
W naszej codziennej pracy używamy platformy Kubernetes, której klastry przechowujemy w Google Cloud (Google Kubernetes Engine), jak również on-premise.
Pomagamy zespołom deweloperskim w utrzymaniu stabilności usług, jednocześnie nie blokując ich pracy długimi przerwami serwisowymi. Pomagają nam w tym metryki aplikacji, z których tworzymy SLI, utrzymując je w zakresie zdefiniowanych SLO.
Nasze Observability realizujemy używając Open Source’owych narzędzi takich jak Prometheus, Grafana oraz Jaeger. Przygotowane wcześniej dashboardy pomagają w przystępny sposób namierzyć potencjalne źródło problemu.
Ile można zajmować się infrastrukturą i pipeline’ami? Czasem i my lubimy sobie trochę poprogramować. 🙂 Mamy szereg wewnętrznych rozwiązań pisanych głównie w języku Go, choć nie zawahamy się również użyć Basha bądź Pythona.
Członkowie naszego zespołu biorą również udział w płatnych dyżurach on-call jako druga linia wsparcia, w ramach których pomagamy w tematach dotyczących infrastruktury oraz w namierzaniu problemów z samymi aplikacjami.
Stack technologiczny:
Kubernetes, GCP, Terraform, Docker, Jenkins, Ansible, Stackdriver, Consul, Nginx, Redis, Elasticsearch, RabbitMQ, Prometheus, Grafana, Influx, PostgreSQL, RabbitMQ, Akamai, SaltStack, Istio, .NET Framework, .NET Core, PHP, Node.js.