Hoe het vastlopen van een cruciaal systeem van KPN vorig jaar 112 platlegde

0
53

Het is 15.30 uur als bij KPN, de beheerder van het 112-netwerk, een melding binnenkomt. Die luidt: het verkeer loopt terug. Een slecht teken.

Intern gaan er vervolgens meer alarmbellen af. Toch duurt het ruim twee uur voordat de oorzaak gevonden is. En uiteindelijk is het noodnummer 112, dat altijd bereikbaar moet zijn, drie uur lang uit de lucht.

Aaneenschakeling van fouten

Er gingen die dag talloze dingen mis, maar een cruciale rol speelde het zogeheten routeringssysteem. Een verborgen softwarefout in dit systeem was de grote boosdoener. Het systeem zorgt ervoor dat een beller contact krijgt met degene die hij wil bereiken. Vergelijk het met een navigatiedienst: je weet je locatie, je weet waar je naartoe moet en de navigatie vertelt je de route.

Dit systeem wordt voortdurend in de gaten gehouden vanaf een server van de provider. Maar drie dagen voor de grote storing wordt die server offline gehaald, omdat hij niet meer voldoet aan de beveiligingseisen. De medewerker die dit doet heeft geen idee dat de voortdurende bewaking hiermee wegvalt.

De beheerder van dit routeringssysteem ziet wel dat de server offline is, en stuurt er een mail over. Maar hij mailt naar een oud e-mailadres van de provider. Die melding komt daar dus nooit aan en er wordt verder geen actie ondernomen.

De eerste storing

Om alle telefoontjes af te kunnen handelen zijn er vier van die routeringssystemen, verspreid over twee locaties. Stel dat het te druk wordt voor één van de systemen, dan kan een van de andere het overnemen. Maar door een fout eind 2018 werken de tellers die de drukte meten niet meer zoals het moet.

Een uur voordat de storing begint loopt het eerste systeem tegen zijn maximum aan en uiteindelijk raken alle vier de systemen in enkele minuten één voor één overbelast. Ze kunnen geen telefoontjes meer verwerken en 112 is onbereikbaar.

Op een na hoogste alarmfase

22 minuten nadat de eerste melding binnenkomt, schaalt het bedrijf op naar de één na hoogste alarmfase. Maar de communicatie onderling verloopt bijzonder moeizaam, omdat het telecombedrijf zelf namelijk óók last heeft van de storing. Skype en e-mail moeten uitkomst bieden.

Hoogste crisisniveau

Wanneer blijkt dat 112 ook landelijk getroffen is wordt er opgeschaald naar het allerhoogste crisisniveau. In dit crisisteam zit ook de raad van bestuur van KPN.

Het blijkt niet eenvoudig om te ontdekken waar de storing nou echt vandaan komt. De eerste meldingen wijzen namelijk naar een probleem op een andere plek in het netwerk. Er gaat veel tijd verloren doordat onderzoekers zich hier op focussen, waardoor latere meldingen, die wel de juiste fouten aanwijzen, worden genegeerd.

Pas om 17.00 uur krijgen ze wel oog voor die meldingen en pas drie kwartier later wordt het echte euvel ontdekt. Er wordt een reset uitgevoerd, die geen effect heeft. Een tweede poging is wel succesvol. Uiteindelijk is de storing om 18.52 uur verholpen. Dan is ook 112 weer bereikbaar.

Bron: NOS.nl

LAAT EEN REACTIE ACHTER

Please enter your comment!
Please enter your name here

zeven + zestien =