Blog

Wat is Site Reliability Engineering (SRE)?

Naarmate een bedrijf groeit en zijn dienstenportfolio uitbreidt, worden ook de operationele uitdagingen complexer. Het beheer van grootschalige infrastructuur, het waarborgen van hoge beschikbaarheid en het voorkomen van storingen worden steeds belangrijker.

 

Voor veel bedrijven wordt het duidelijk dat traditionele IT-operatiemodellen niet langer voldoen aan de eisen van een groeiende organisatie. Het reactief oplossen van problemen is niet langer voldoende om de verwachtingen van klanten te overtreffen en concurrentievoordeel te behouden. Hier komt Site Reliability Engineering (SRE) om de hoek kijken als een innovatieve aanpak om betrouwbaarheid te waarborgen in groeiende en complexe IT-omgevingen.

Wat is Site Reliability Engineering (SRE)?

Site reliability engineering (SRE) is een verzameling van principes en praktijken die aspecten van software engineering integreert en deze toepast op IT-infrastructuur en operaties.

Of zoals Google het noemt: SRE is wat er gebeurt wanneer je een software-engineer vraagt om een operations team te ontwerpen.

In de basis is SRE het technisch verbeteren van de betrouwbaarheid van een applicatie of website.

Een goede Site Reliability Engineer heeft de skillset om handmatig, herhalend werk te automatiseren zodat er meer tijd beschikbaar blijft voor het verbeteren van de business.

Welke principes liggen ten grondslag bij SRE?

Binnen SRE zijn er een aantal principes die ten grondslag liggen:

Verminderen van Toil:

Toil is een term die wordt gebruikt binnen Site Reliability Engineering (SRE) om repetitieve, handmatige taken te beschrijven die geen duurzame langetermijnoplossing hebben. Het zijn taken die noodzakelijk zijn voor het dagelijkse beheer van systemen, maar die weinig tot geen waarde toevoegen aan de groei of ontwikkeling van een organisatie.

Enkele voorbeelden van toil zijn:

  1. Handmatig herstarten van services bij storingen.
  2. Repetitieve taken zoals het toevoegen van gebruikers of het configureren van servers.
  3. Het handmatig controleren van logs op fouten.
  4. Het handmatig oplossen van bekende problemen die regelmatig terugkeren.

Toil is problematisch omdat het veel tijd en middelen van een SRE-team kan opslokken, waardoor er minder tijd overblijft voor het werken aan projecten die waarde toevoegen, zoals het verbeteren van systemen, automatiseren van processen en het implementeren van preventieve maatregelen tegen storingen.

Het streven van een SRE-team is om toil zoveel mogelijk te verminderen of te elimineren door middel van automatisering en procesverbetering. Hierdoor kunnen SRE’s zich concentreren op taken die daadwerkelijk bijdragen aan het verbeteren van de betrouwbaarheid en prestaties van systemen en diensten.

Analyseren van incidenten zonder te kijken naar de schuldvraag

Tijdens het analyseren van incidenten wordt er gekeken naar:

  1. Identificatie van het incident: Wat is er precies gebeurd en wat waren de gevolgen?
  2. Onderzoek naar de oorzaken: Wat heeft geleid tot het incident? Welke systemen, processen of menselijke fouten hebben bijgedragen?
  3. Analyse van de impact: Wat waren de gevolgen voor gebruikers, klanten en het bedrijf als geheel?
  4. Identificatie van leermomenten: Welke lessen kunnen worden getrokken uit het incident? Zijn er best practices die in de toekomst kunnen worden toegepast?
  5. Formuleren van aanbevelingen: Welke maatregelen kunnen worden genomen om herhaling te voorkomen? Hoe kunnen processen of systemen worden verbeterd?

Door deze benadering te hanteren, kunnen organisaties een cultuur van transparantie, samenwerking en continue verbetering bevorderen, waarbij de focus ligt op het leren van incidenten in plaats van het toewijzen van schuld. Dit draagt bij aan een veerkrachtiger en betrouwbaarder operationeel ecosysteem.

Implementeren van SLO’s (Service Level Objectives) en SLI’s (Service Level Indicators)

Wat zijn SLO’s en SLI’s?

SLO’s zijn meetbare doelen die de gewenste betrouwbaarheid en prestaties van een service definiëren. Ze geven aan wat de verwachte beschikbaarheid of prestatieniveau van een service is gedurende een bepaalde periode. Bijvoorbeeld, een SLO kan zijn dat een webtoepassing 99,9% van de tijd beschikbaar moet zijn voor gebruikers.

SLI’s zijn de metrieken of indicatoren die worden gebruikt om de prestaties van een service te meten en te kwantificeren. Deze kunnen variëren afhankelijk van de aard van de service, maar omvatten vaak aspecten zoals uptime, latency, doorvoer, foutenpercentage en andere relevante parameters.

Waarom zijn SLO’s en SLI’s belangrijk?

SLO’s en SLI’s bieden een gestructureerde aanpak voor het definiëren, meten en beheren van de betrouwbaarheid van services. Door duidelijke doelen vast te stellen en relevante indicatoren te monitoren, kunnen organisaties proactief problemen identificeren, anticiperen op toekomstige uitdagingen en prioriteiten stellen voor verbeteringen.

Het implementeren van SLO’s en SLI’s stelt organisaties in staat om:

  1. Beter inzicht te krijgen: Door SLI’s te monitoren, kunnen teams een diepgaand inzicht krijgen in de prestaties en betrouwbaarheid van hun services.
  2. Risico’s te beheren: SLO’s stellen organisaties in staat om een acceptabel risiconiveau te definiëren en prioriteiten te stellen voor het verbeteren van de betrouwbaarheid van kritieke services.
  3. Klantgericht te zijn: Door zich te richten op de gebruikerservaring en het definiëren van SLO’s die aansluiten bij de verwachtingen van klanten, kunnen organisaties hun dienstverlening optimaliseren en klanttevredenheid maximaliseren.
  4. Continue verbetering te bevorderen: Door het stellen van haalbare SLO’s en het monitoren van SLI’s kunnen organisaties een cultuur van continue verbetering bevorderen, waarbij ze streven naar hogere niveaus van betrouwbaarheid en prestaties.

Site Reliability Engineering (SRE) biedt een robuust kader voor het waarborgen van betrouwbaarheid en prestaties in IT-operaties. Door principes zoals het verminderen van toil, het analyseren van incidenten zonder schuldvraag en het implementeren van SLO’s en SLI’s te omarmen, kunnen organisaties proactief problemen identificeren, anticiperen op toekomstige uitdagingen en prioriteiten stellen voor verbeteringen. SRE vormt daarmee een essentiële pijler voor het leveren van hoogwaardige diensten en het behouden van een concurrentievoordeel in een snel veranderend technologielandschap.

Meer weten over SRE?

Meld je aan voor de meetup met als onderwerp SRE.

Donderdag 16 mei 2024 vindt de meetup SRE plaats bij ons op de Roeter in Alkmaar!

Wil je op de hoogte blijven van de laatste ontwikkelingen op IT gebied. Meld je dan hier aan voor de nieuwsbrief.

Benieuwd naar de mogelijkheden? Let’s talk!

Cyso stories

De gouden driehoek: de basis van cloud security
23/02/2021

De gouden driehoek: de basis van cloud security

07/04/2022

Negen onderdelen van een succesvolle devops architectuur

Kubernetes en het gebruik van microservices zorgen ervoor dat veel systemen nu worden vervangen door een cloud-gebaseerde omgeving.
08/07/2019

Cyso ambassadeur: Health Connected

Wie zijn de klanten van Cyso en waarom werken zij met Cyso samen? Daarover lees je in deze persoonlijke en verrassende rubriek. Deze keer: HealthConnected.

Interesse in een van onze diensten?

Wat is je vraag? Neem nu contact met ons op.

Wil je dat wij contact met jou opnemen? Laat je gegevens achter en wij bellen je terug.

Cyso contact