Verminderde beschikbaarheid Blue10
Incident Report for Blue10
Resolved
Gisteren hebben we succesvol optimalisaties doorgevoerd bij alle klanten en dit gemonitord. We zien dat dit het gewenste effect heeft en sluiten daarom het incident af.
Posted Sep 22, 2022 - 15:34 CEST
Update
We hebben het probleem van de verstoring van gisteren achterhaald. We maakten gebruik van de indexering in de databases van Microsoft Azure. Deze was niet optimaal ingericht op het gebruik van de Blue10 software. Het automatische proces van indexering in Azure draaide onder werktijd, waardoor er een hoge load ontstond. Dit leidde er toe tot verminderde beschikbaarheid van Blue10.

We gaan nu zelf stap voor stap de indexering in de databases optimaliseren zodat de indexering beter aansluit op de wijze waarop wij de databases binnen Azure gebruiken. We hebben nu bij een aantal klanten optimalisaties doorgevoerd en zijn nu in afwachting van goede resultaten. Wanneer deze optimalisaties succesvol werken, gaan we vandaag nog een update uitrollen over alle klanten. Daarna monitoren we minimaal 24 uur of de update het gewenste effect heeft voordat we het incident sluiten.
Posted Sep 21, 2022 - 13:41 CEST
Update
Door de verstoring van vanochtend zijn er verdeeld over alle klanten 200 documenten in een fout-status gekomen, waardoor deze nog niet verwerkt zijn. Op de achtergrond zijn we deze documenten aan het resetten, zodat deze opnieuw verwerkt worden en zo snel mogelijk beschikbaar komen in het splits- of valideerscherm. Je hoeft hier niets voor te doen, de documenten komen binnen afzienbare termijn beschikbaar.

Nadere toelichting op de verstoring:
De verstoring heeft plaatsgevonden in een database server op Azure (Elastic Pool), waardoor vanochtend tussen 10.00 en 12.30 uur de website van Blue10 traag reageerde en ook afbeeldingen van documenten die getoond worden in het splits- en valideerscherm en op de documentdetailpagina traag inladen. Als requests te lang duurden, werden deze afgesloten en kreeg je de melding van een onbereikbare website. Dit werd veroorzaakt doordat een Elastic Pool (op nog onverklaarbare wijze) volliep, waarna ook storage accounts op Azure volliepen. Na ca. een uur zagen we het CPU gebruik omlaag gaan en normaliseerde de reactietijden van de Blue10 websites, waarna gebruikers weer normaal konden werken met Blue10. We zijn de oorzaak van dit probleem nog aan het onderzoeken en zijn hierover in contact met Microsoft Azure support.

Mocht hier een relevante conclusie uitkomen, zullen we deze delen op onze statuspage. We blijven de omgeving nog even monitoren en gaan zorgen dat de eerder genoemde documenten weer beschikbaar zijn voor klanten en zullen daarna dit incident afsluiten.
Posted Sep 20, 2022 - 17:15 CEST
Monitoring
We hebben de oorzaak van het probleem gevonden en acties ondernomen om de verstoring te verhelpen. In onze logging/monitoring zien we dat Blue10 weer beschikbaar is waardoor het weer mogelijk is om in Blue10 te werken.

We houden het incident open totdat we zeker weten dat er ook geen verdere nasleep is van de verstoring.
Posted Sep 20, 2022 - 14:08 CEST
Investigating
We zien problemen naar voren komen die leiden tot verminderde beschikbaar van Blue10. We zijn aan het onderzoeken hoe dit komt en gaan het zo snel als mogelijk oplossen.

We houden je op de hoogte via onze Statuspage.
Posted Sep 20, 2022 - 10:43 CEST
This incident affected: Beschikbaarheid website.