Hosted Exchange storing

Vraag offerte aan

Offerte aanvraag

Hosted Exchange storing

Op 11 november werden wij geconfronteerd met storing op ons Hosted Exchange platform. In deze blog zullen wij, zoals u dat van ons gewent bent, proberen uiteen te zetten wat er heeft plaatsgevonden, de storing, het ontstaan daarvan, het troubleshoten en de uiteindelijke oplossing. Om er zo zeker van te kunnen zijn dat dit in de toekomst niet nogmaals kan voorkomen.

WAT IS ER GEBEURD?
Op 11 november om 06:57 uur ontvingen wij op onze monitoring de melding dat er verschillende diensten van het Hosted Exchange platform aan het pingelen waren, dat wil zeggen dat diensten continue down en up raakten. De signalen van onze interne monitoring waren niet duidelijk c.q. tegenstrijdig, Exchange leek up en running te zijn en functioneerde volgens onze tools uitstekend. Uiteraard zijn we direct begonnen met het preventief controleren van het Exchange platform, hieruit is gebleken dat Exchange zoals de monitoring uitwees stabiel en prima functioneerde. Hierna zijn we verder gaan zoeken op netwerkniveau, zowel intern als extern zijn er diverse controles uitgevoerd. Hieruit kwam naar voren dat er met de apparatuur en instellingen niks mis was, echter zagen we wel een verandering optreden in de netwerkstatistieken voor het Hosted Exchange platform. Er ontstonden namelijk vrij frequente pieken en dalen (netwerkdrops). Wat u als gebruiker in de vroege ochtend heeft kunnen ervaren is dat verbindingen met Outlook, OWA of mobiel moeilijk of niet tot gebracht konden worden.

De focus werd verlegd naar onze Sophos UTM (firewalls). Er werd geconstateerd dat de firewall op de masterlocatie te kampen heeft gehad met een uitval, dit van 1 van de 2 uplinks voor het extern verkeer (dit betreft de verbindingen van buitenaf). De logging van de Sophos gaf hierin echter geen bijzonderheden aan, behalve dat een van de verbindingen was weggevallen. De 2 verbindingen staan in een HA modus verbonden met de firewall.

Op dit moment hebben wij een failover geïnitieerd naar de failover locatie, deze is succesvol verlopen. Even leek het Hosted Exchange platform weer stabiel, dit was echter van korte duur. De algehele situatie was verbeterd, maar voor de gebruikers voelde verbinden met Exchange als stroperig en voor remote desktop gebruikers was Outlook nagenoeg helemaal niet bereikbaar. Dit komt omdat Outlook veel meer verbindingen actief moet houden in combinatie met remote desktop, dan bij een reguliere verbinding met een PC of Mac.

De master is toen uit voorzorg herstart, om vervolgens een fail-back te doen naar de oude master. Dit bleek niet de oplossing voor het probleem, direct hierop is opnieuw een fail-over ingezet. In de tussentijd is er contact gelegd met onze Sophos leverancier, welke vanaf dat moment ons actief is gaan ondersteunen bij het oplossen van het probleem. Exchange was matig bereikbaar. Hierna zijn wij alle kabels en alle externe poorten gaan controleren. (Denk aan nieuwe kabels trekken, system checks, etc). Dit zijn zeer arbeidsintensieve en tijdrovende werkzaamheden wanneer deze moeten worden uitgevoerd op een dergelijk grote en complexe omgeving.

Hosted-Exchage-storing-2594x1007

HOE IS HET PROBLEEM ONTSTAAN?
Door uitvoerig te troubleshooten zijn we tot de conclusie gekomen dat één van de twee HA poorten van het externe netwerk op de Sophos voor een deel is overleden (poort 3). Dit heeft geleid tot een softwarematige en een netwerkmatige fout in de Sophos. Door het niet volledig falen van de poort heeft het netwerk LACP protocol gefaald door deze deels overleden poort nog te blijven gebruiken. Verder heeft dit er toe geleid dat de poortsnelheid aan de kant van de Sophos schommelde tussen 100 Mbit en 1 Gbit, terwijl dit 1 Gbit moet zijn. De HA opstelling van de 2 firewalls heeft ertoe geleid, dat het softwarematig falen van de master, de slave heeft “geïnfecteerd”. Door de schommelingen in poortsnelheid werden continue pakketjes geblokkeerd, dit resulteerde in een wisselend gebrek aan doorvoersnelheid, met als resultaat stroperigheid.

DE OPLOSSING!
Wij hebben uiteindelijk de gehele externe netwerkconfiguratie tijdelijk op 1 nieuwe poort geplaatst, waarna de omgeving weer goed begon te werken. Dit proces duurde erg lang door het troubleshooten en het maken van de juist inschatting wat de gevolgen zouden kunnen zijn voor de live omgeving, waarbij wij volledige downtime wilde beperken tot het minimum.

Gisteren heeft er spoedonderhoud aan de Sophos firewalls plaatsgevonden, daarbij zijn er nieuwe enkele uplink poorten naar elk van de Sophos firewalls in gebruik genomen. Deze poorten zijn niet uitgevoerd met het HA LACP protocol, omdat Sophos hier blijkbaar, in geval van deels werken van een netwerkpoort, niet goed mee om kan gaan. Wanneer er nu een probleem optreed met een van de externe poorten, dan zal er een automatische failover plaatsvinden, omdat de dan nog goed werkende firewall een “hogere” uplink doorvoersnelheid heeft dan de firewall met problemen. Hierdoor kunnen wij een soortgelijk probleem in de toekomst uitsluiten.

AFSLUITEND
Al met al was dit een zeer complex probleem en zijn wij zeer tevreden over hoe ons team in samenwerking met onze leverancier tot een oplossing is gekomen. Het is belangrijk om te weten, dat wanneer er geen tweede firewall was geweest, de omgeving tot de tijd van oplossen volledig down zou zijn geweest.

Wij willen u bedanken voor uw geduld en alle bemoedigende woorden tijdens de telefoongesprekken die wij met u hebben gevoerd. Wij hopen dat u er niet al te veel last van heeft gehad.

Mocht u nog vragen of opmerkingen hebben, laat ons deze dan weten via info@fatihkilic.nl

Met vriendelijke groet,

Fatih Kilic

Over de auteur

Fatih Kilic

Het begon allemaal tijdens mijn studie Commerciële Economie aan de Hogeschool Windesheim. Deze opleiding leerde me hoe producten of diensten het beste kunnen worden gekoppeld aan een specifieke doelgroep. Online én offline. De nieuwste ontwikkelingen op het gebied van internet en grafische vormgeving vormden een uitdaging voor mij. Toen ik ontdekte hoe achterhaald en gebruiksonvriendelijk veel websites waren, was voor mij de keuze snel gemaakt. Dit was mijn werkveld. Tijd voor een eigen bedrijf!

Plaats een reactie

Onze opdrachtgevers

Bekijk ons werk

home_img6
Harry van Hunen

Harry van Hunen

Voertuigreclame, Hosting, Fotografie, Drukwerk, Huisstijl, Vormgeving, Webdesign

home_img6
Esu Masterclasses

Esu Masterclasses

Vormgeving, Webdesign

home_img6
Nida DenHaag

Nida DenHaag

Fotografie, Drukwerk, Huisstijl, Vormgeving, Webdesign

meer werk

Benieuwd wat wij voor jou kunnen betekenen?

neem contact op