Insights, technology, people and more

Altijd up-to-date met onze laatste artikelen.

@
Kort en bondig, doch informatief

Kort en bondig, doch informatief

2 December 2015 door in Hosting

Of: hoe wij met 100% uptime ons netwerk hebben geüpgraded

Als klant zult u het afgelopen jaar met enige regelmaat aankondigingen hebben ontvangen over onderhoud aan ons netwerk. In die aankondigingen geven wij aan wanneer we onderhoud uitvoeren, wat dat inhoudt, wat het doel daarvan is en welke impact het onderhoud zal hebben op uw dienstverlening. Deze aankondigingen zijn over het algemeen kort en bondig, doch informatief. Achter die korte aankondiging gaat echter een filosofie, veel denkwerk en voorbereiding schuil.

Het afgelopen jaar hadden veel van die aankondigingen betrekking op werkzaamheden aan ons netwerk. Ze hadden tot doel om de capaciteit van ons netwerk uit te breiden of om ons netwerk in Global Switch te verplaatsen van de oude naar de grotere, nieuwe suite. Daarbij hanteren we de volgende filosofie:

  • Op ons netwerk moet er altijd ruimschoots capaciteit voorhanden zijn.
  • Kritische componenten en verbindingen moeten altijd meervoudig uitgevoerd zijn.
  • We maken van de in het netwerk aanwezige redundantie gebruik om wijzigingen aan het netwerk zonder of met minimale impact uit te voeren.

Ik wil in vogelvlucht nog eens terugkijken naar de werkzaamheden van afgelopen jaar om een inkijkje te geven in hoe wij dergelijke werkzaamheden voorbereiden en uitvoeren.

Het uitbreiden van ons netwerk heeft vooral betrekking gehad op twee onderdelen:

  1. De capaciteit tussen ons netwerk en de rest van het Internet
  2. De capaciteit van de glasvezelring tussen onze datacenters Global Switch en Equinix

Uitbreiding van de capaciteit van de externe verbindingen

Het uitbreiden van de capaciteit tussen ons netwerk en de rest van het Internet heeft vooral bestaan uit het vervangen van alle verbindingen die nog niet minimaal 10 Gbit/s waren, en het aansluiten van een extra transit provider. Deze externe verbindingen maken gebruik maken van BGP (Border Gateway Protocol). Hierdoor is het overzetten van oude naar nieuwe verbindingen iets wat weliswaar zichtbaar is, maar zonder merkbare impact gaat.

Helaas zijn dingen nooit zo simpel als ze lijken. Voor het aansluiten van extra 10 Gbit/s verbindingen zijn op onze routers wel poorten nodig die deze snelheid ondersteunen. Van deze poorten waren er niet voldoende beschikbaar, en dus waren we genoodzaakt om een extra kaart met dit type poorten aan de router toe te voegen. Daarvoor was een update van de firmware nodig, en bij het updaten van de firmware is het nodig om de router te herstarten. Bovendien, als je de firmware op één router update, dan wil je dat enige dagen later ook op de router in het andere datacenter doen. Kortom, een ogenschijnlijk simpele upgrade mondt al snel uit in het inplannen van 2 onderhoudsvensters, een flink aantal uren voorbereiding, controle van de stappenplannen door een collega, opstellen en versturen van aankondigingen naar onze klanten, en uiteraard 2 nachtjes werken in een verlaten maar luidruchtig datacenter. Het resultaat mocht er zijn. Een verveelvoudiging van de capaciteit, en het enige wat u daarvan als klant gemerkt hebt zijn twee mailtjes waarin de werkzaamheden werden aangekondigd.

Uitbreiding van de capaciteit van de glasvezelring

Het uitbreiden van de capaciteit in het eigen netwerk heeft flink wat meer voeten in de aarde gehad. Het hart van ons netwerk bestaat uit een glasvezelring tussen Global Switch en Equinix. Tussen de beide datacenters hebben wij de beschikking over meerdere glasvezels, zogenaamde dark fibers. De ene glasvezel loopt langs het noorden van Amsterdam, de andere langs het zuiden. De glasvezels komen in de beide datacenters ieder langs een eigen route van het gebouw en vervolgens onze core racks binnen. In die core racks hangen onze core switches. Voor de upgrade waren die core switches lokaal en via de beide glasvezels met elkaar verbonden, en vormden zo een ring. Deze ring en een speciaal protocol op de core switches zorgen er voor dat uitval van één van de glasvezels of lokale verbindingen tussen core switches geen impact heeft op de beschikbaarheid van het netwerk.

Het toevoegen van een doos met spiegeltjes

Aangezien deze ring gebruik maakt van dark fibers (glasvezels waar wij zelf apparatuur op aansluiten die er licht doorheen stuurt), konden we gebruik maken van DWDM. Dit is een techniek die het mogelijk maakt om het licht dat door een glasvezel heen gestuurd wordt op te delen in een aantal bundels op een specifieke frequentie. Over ieder van die frequenties kan vervolgens een verbinding opgezet worden. Daarvoor moet wel extra apparatuur op de glasvezels aangesloten worden, en dat houdt in dat onze ring diverse (lees: vele) malen onderbroken moest worden.

Beetle Fiberoptics
Beetle Fiberoptics

De DWDM apparatuur die we in gebruik genomen hebben is passief; de apparatuur bevat geen elektronica. Oneerbiedig roepen wij wel eens dat het eigenlijk niet meer is dan een doos met spiegeltjes, en die uitspraak ligt eigenlijk niet heel ver van de waarheid. Door aan beide kanten van de glasvezels zo’n “doos met spiegeltjes” te plaatsen kwamen op ieder van onze glasvezels ineens allemaal extra poorten beschikbaar. Daarvan hebben we op iedere glasvezel een aantal poorten gebruikt om de capaciteit van onze ring te verdrievoudigen.


Lees ook: PaaS: de stand anno 2016

Het verdelen van de extra kanalen

Van de beschikbare poorten op iedere glasvezel was er nu zo’n 40% in gebruik. Van de overige kanalen hebben wij er op iedere glasvezel nog 1 gebruikt om onze routers in Global Switch en Equinix rechtstreeks met elkaar te verbinden. Dankzij die verbinding kunnen deze routers nu rechtstreeks verkeer uitwisselen, waar dat vroeger via onze core ring gedaan werd. De capaciteit van onze core ring is dus niet alleen uitgebreid, we hebben ook nog eens gezorgd dat een belangrijk deel het verkeer dat vroeger over onze core liep daar nu is weggehaald. En oh ja, er is nog 50% van de poorten op iedere glasvezel beschikbaar voor toekomstige plannen!

Configuratiewijzigingen van de core switches

Bij het verhogen van de capaciteit van de ring kwam ook meer kijken dan je op het eerste gezicht zou zeggen. Gebruik van DWDM vereist gebruik van andere optische modules in de core switches. Het bundelen van 3 poorten op de core switches vereiste flinke configuratiewijzigingen. Om poorten voor deze bundels vrij te maken hebben we diverse patches moeten verplaatsen naar andere poorten op de core switches. Het aantal te verplaatsen patches was dusdanig groot dat we er voor gekozen hebben om steeds een extra core switch met compleet voorbereide configuratie in de ring te plaatsen en vervolgens alle aansluitingen van één core switch naar deze extra switch te verplaatsen. Daarbij kwam het uitstekend van pas dat alle kritieke onderdelen van het netwerk dubbel zijn uitgevoerd, met de nodige voorbereiding was het wederom mogelijk om deze werkzaamheden uit te voeren zonder dat er sprake is geweest van impact op de dienstverlening. De vrijgemaakte switch werd vervolgens voorzien van nieuwe firmware en een compleet voorbereide configuratie, en het hele proces werd herhaald met de volgende core switch.

Het resultaat: nul downtime.

We hebben dus letterlijk alle onderdelen van onze core ring diverse malen losgetrokken, in onze handen gehad, herstart, noem het maar op. De impact? Geen! De ring zelf is redundant en alle kritieke onderdelen van onze infrastructuur zijn, veelal verdeeld over onze twee datacenters, dubbel aangesloten op deze core. Door goed plannen en voorbereiden hebben we daar waar nodig platformen een handmatige “failover” gegeven en maximaal gebruik gemaakt van de redundantie om onze netwerkcapaciteit uit te breiden terwijl uw en onze diensten gewoon beschikbaar bleven.

En toen dachten we dat we klaar waren…

Tja, en dan heb je net zo’n beetje alle upgrades afgerond, en dan komt het nieuws dat we een nieuwe, grotere suite in Global Switch krijgen. Capaciteit van een netwerk uitbreiden is één ding, maar een compleet datacenter verplaatsen… Althans, als je dat wilt doen zonder significante downtime te veroorzaken. Laat dat nu precies zijn wat we willen, nee, wat we moeten. Stelt u zich toch eens voor dat u zo’n kort en bondig doch informatieve aankondiging krijgt van een verhuizing die tot gevolg heeft dat uw diensten voor de duur van een weekeinde niet beschikbaar zullen zijn. Ik vermoed dat we correct inschatten dat u daar erg ongelukkig van zou worden, nietwaar?

De grootste complicerende factor bij de verhuizing van het netwerk naar de nieuwe suite was niet zozeer de verhuizing zelf. Ja, dat vergt weer een hoop denkwerk, voorbereiding, aanleggen van een flink aantal tijdelijke patches tussen de oude en de nieuwe ruimte, aanleggen van nieuwe patches voor onze externe verbindingen en heel nauwkeurige planning. Het belangrijkste punt was echter dat het netwerk ook het medium was waarover een groot deel van de servers van de oude naar de nieuwe suite verplaatst moesten worden.

De migratie van de VMware omgeving

In ons VMware platform kunnen we gebruik maken van vMotion (het verplaatsen van een Virtual Machine naar een andere hardware node) en Storage vMotion (het verplaatsen van de virtuele disk van een Virtual Machine naar een andere plek in ons Enterprise SAN storage platform). Die Enterprise SAN omgeving op zijn beurt, bestaat weer uit een groot aantal storage devices die gezamenlijk op intelligente wijze bepalen op welk device welk stukje data bewaard wordt. We hebben de storage devices uit deze omgeving naar de nieuwe suite kunnen verplaatsen door deze één voor één leeg te maken (de data verplaatst dan naar andere devices in de omgeving), fysiek te verplaatsen en weer met het netwerk te verbinden, en vervolgens weer aan de Enterprise SAN omgeving toe te voegen. Door de uitbreiding aan het VMware platform (die toch al op de planning stond) meteen in de nieuwe suite te hangen, konden we vervolgens vMotion en daar waar nodig Storage vMotion gebruiken om alle Virtual Machines te verplaatsen. Vervolgens konden ook de vrijgekomen VMware hardware nodes uit de oude suite fysiek verplaatst worden naar de nieuwe suite. U als klant heeft van dit alles niets gemerkt.

Plus een aantal klantmigraties

Een soortgelijke exercitie hebben we uitgevoerd voor een grote klant met een eigen platform inclusief storage platform. Hoewel de inrichting van dat platform niet voorziet in een verhuizing zonder downtime, zijn we er toch in geslaagd om in een periode van 3 weken tientallen servers met daarop tienduizenden websites te verhuizen met minimale downtime. Ook de apparatuur van een klant die zijn redundante platform over onze twee datacenters verspreid heeft staan, hebben we voor hem verplaatst zonder enige impact op zijn dienstverlening.

Plannen voor 2016

Ook voor het komende jaar staat er weer onderhoud aan het netwerk op het programma. Zo zullen wij aan de slag gaan met vervanging van onze core switches, vervanging van onze routers, vervanging van ons anti-DDoS platform, uitbreiding van het anti-DDoS platform met oplossing die onderdeel zijn van een integrale security oplossing en uitbreiding van het netwerk voor ons zusterbedrijf Fuga. Daarbij zullen we dezelfde filosofie blijven hanteren: op ons netwerk moet altijd ruimschoots capaciteit voorhanden zijn, kritische componenten en verbindingen moeten altijd meervoudig uitgevoerd zijn, en van de in het netwerk aanwezige redundantie maken we gebruik om wijzigingen aan het netwerk zonder of met minimale impact uit te voeren. Ons netwerk en onze manier van werken zijn er op ingericht om zo goed mogelijk invulling te geven aan deze filosofie, en dus merkt u van al die werkzaamheden maar één ding: een korte en bondige, doch informatieve aankondiging.


Altijd up-to-date met onze laatste artikelen.

@

Kwaliteit. Betrouwbaar. Betrokken.
  • 24/7 service support
  • Nederlandse datacenters
  • ISO 27001 gecertificeerd
vmware enterprise service provider