09/09/2021
Verbeter jouw multi-cloud netwerkconnectiviteit
Een multi-cloud constructie is soms zeer bewust gekozen, maar ook vaak het gevolg van een min of meer noodgedwongen digitale transitie.
Blog
Naarmate een bedrijf groeit en zijn dienstenportfolio uitbreidt, worden ook de operationele uitdagingen complexer. Het beheer van grootschalige infrastructuur, het waarborgen van hoge beschikbaarheid en het voorkomen van storingen worden steeds belangrijker.
Voor veel bedrijven wordt het duidelijk dat traditionele IT-operatiemodellen niet langer voldoen aan de eisen van een groeiende organisatie. Het reactief oplossen van problemen is niet langer voldoende om de verwachtingen van klanten te overtreffen en concurrentievoordeel te behouden. Hier komt Site Reliability Engineering (SRE) om de hoek kijken als een innovatieve aanpak om betrouwbaarheid te waarborgen in groeiende en complexe IT-omgevingen.
Site reliability engineering (SRE) is een verzameling van principes en praktijken die aspecten van software engineering integreert en deze toepast op IT-infrastructuur en operaties.
Of zoals Google het noemt: SRE is wat er gebeurt wanneer je een software-engineer vraagt om een operations team te ontwerpen.
In de basis is SRE het technisch verbeteren van de betrouwbaarheid van een applicatie of website.
Een goede Site Reliability Engineer heeft de skillset om handmatig, herhalend werk te automatiseren zodat er meer tijd beschikbaar blijft voor het verbeteren van de business.
Binnen SRE zijn er een aantal principes die ten grondslag liggen:
Toil is een term die wordt gebruikt binnen Site Reliability Engineering (SRE) om repetitieve, handmatige taken te beschrijven die geen duurzame langetermijnoplossing hebben. Het zijn taken die noodzakelijk zijn voor het dagelijkse beheer van systemen, maar die weinig tot geen waarde toevoegen aan de groei of ontwikkeling van een organisatie.
Enkele voorbeelden van toil zijn:
Toil is problematisch omdat het veel tijd en middelen van een SRE-team kan opslokken, waardoor er minder tijd overblijft voor het werken aan projecten die waarde toevoegen, zoals het verbeteren van systemen, automatiseren van processen en het implementeren van preventieve maatregelen tegen storingen.
Het streven van een SRE-team is om toil zoveel mogelijk te verminderen of te elimineren door middel van automatisering en procesverbetering. Hierdoor kunnen SRE’s zich concentreren op taken die daadwerkelijk bijdragen aan het verbeteren van de betrouwbaarheid en prestaties van systemen en diensten.
Tijdens het analyseren van incidenten wordt er gekeken naar:
Door deze benadering te hanteren, kunnen organisaties een cultuur van transparantie, samenwerking en continue verbetering bevorderen, waarbij de focus ligt op het leren van incidenten in plaats van het toewijzen van schuld. Dit draagt bij aan een veerkrachtiger en betrouwbaarder operationeel ecosysteem.
Wat zijn SLO’s en SLI’s?
SLO’s zijn meetbare doelen die de gewenste betrouwbaarheid en prestaties van een service definiëren. Ze geven aan wat de verwachte beschikbaarheid of prestatieniveau van een service is gedurende een bepaalde periode. Bijvoorbeeld, een SLO kan zijn dat een webtoepassing 99,9% van de tijd beschikbaar moet zijn voor gebruikers.
SLI’s zijn de metrieken of indicatoren die worden gebruikt om de prestaties van een service te meten en te kwantificeren. Deze kunnen variëren afhankelijk van de aard van de service, maar omvatten vaak aspecten zoals uptime, latency, doorvoer, foutenpercentage en andere relevante parameters.
Waarom zijn SLO’s en SLI’s belangrijk?
SLO’s en SLI’s bieden een gestructureerde aanpak voor het definiëren, meten en beheren van de betrouwbaarheid van services. Door duidelijke doelen vast te stellen en relevante indicatoren te monitoren, kunnen organisaties proactief problemen identificeren, anticiperen op toekomstige uitdagingen en prioriteiten stellen voor verbeteringen.
Het implementeren van SLO’s en SLI’s stelt organisaties in staat om:
Site Reliability Engineering (SRE) biedt een robuust kader voor het waarborgen van betrouwbaarheid en prestaties in IT-operaties. Door principes zoals het verminderen van toil, het analyseren van incidenten zonder schuldvraag en het implementeren van SLO’s en SLI’s te omarmen, kunnen organisaties proactief problemen identificeren, anticiperen op toekomstige uitdagingen en prioriteiten stellen voor verbeteringen. SRE vormt daarmee een essentiële pijler voor het leveren van hoogwaardige diensten en het behouden van een concurrentievoordeel in een snel veranderend technologielandschap.