AWS deelt meer details over de storing van vorige week die globale gevolgen had. Eén fout in het DNS-beheersysteem van DynamoDB resulteerde in een onfortuinlijke kettingreactie.
Op 20 oktober ging zowat het halve internet eruit door een storing bij AWS. Veel populaire websites en -toepassingen zoals Roblox, Reddit, Asana, Signal en de webwinkel van moederbedrijf Amazon ondervonden impact. Hoewel de storing zich afspeelde in een Amerikaanse datacenterregio (us-east-1), waren de gevolgen op globale schaal te voelen.
AWS beloofde meer informatie te delen en is met een incidentrapport naar buiten gekomen. De oorzaak van de storing is opmerkelijk eenvoudig. Eén softwarefout in een DNS-beheersysteem bleek voldoende om meerdere AWS-diensten tijdelijk lam te leggen. De impact trof onder andere DynamoDB, EC2, Lambda, Redshift en het AWS Support Center.
De oorzaak lag bij een raceconditie in het geautomatiseerde DNS-beheersysteem van DynamoDB, schrijft AWS in een rapport. Hierdoor werd een verouderd DNS-plan toegepast, waarna het systeem automatisch het actieve plan verwijderde. Als gevolg daarvan konden klanten en andere AWS-diensten geen verbinding meer maken met het DynamoDB-eindpunt in de getroffen regio.
Domino-effect
De storing had een domino-effect op andere AWS-diensten dat wereldwijd te voelen was. EC2-instanties die al draaiden, bleven werken, maar nieuwe launches faalden omdat de DropletWorkflow Manager (DWFM), die afhankelijk is van DynamoDB, geen leases meer kon onderhouden.
Nadat DynamoDB hersteld was, moest DWFM opnieuw verbinding maken met duizenden droplets. Door vertragingen liep het systeem vast, wat pas opgelost werd na herstarten van DWFM-hosts.
Tegelijkertijd zorgde de netwerkvertraging voor problemen bij Network Load Balancer (NLB). Nieuwe EC2-instanties konden niet correct worden toegevoegd aan de NLB, waardoor gezondheidscontroles faalden. Dit leidde tot foutieve failovers en verhoogde verbindingsfouten.
Ook andere diensten zoals Lambda, Redshift, ECS, EKS, Fargate en de supportdienst ondervonden hinder. Redshift-clusters konden geen IAM-gebruikers authenticeren en sommige clusters werden onbruikbaar door mislukte herstelacties. ECS, EKS en Fargate kenden vertragingen bij het opstarten van containers. Het AWS Support Center werd tijdelijk onbereikbaar door foutieve metadata.
Eén bug, grote impact
Het euvel toont aan hoe essentieel de dienstverlening van grote cloudproviders vandaag is. Zelfs een storing in één regionaal datacenter kan wereldwijde gevolgen hebben. Volgens de eerste schattingen van experten zal de financiële impact van de storing tot miljarden dollars bedragen. Downtime kost geld.
Amazon heeft DNS-automatisering wereldwijd uitgeschakeld en werkt aan een structurele oplossing voor het probleem. Amazon belooft aanvullende maatregelen voor de andere getroffen dienst om de veerkracht en herstelsnelheid van hun infrastructuur verder te verbeteren.
