Dziś rano doszło do jednej z największych w historii awarii Amazon Web Services. Błąd w systemie DNS w regionie US-EAST-1 (Północna Wirginia) spowodował zakłócenia w działaniu setek serwisów internetowych na całym świecie - od gier online, przez aplikacje społecznościowe i platformy finansowe, po usługi chmurowe i streamingowe.
DNS piętą achillesową
Amazon Web Services (AWS) potwierdził, że źródłem problemu były komplikacje z systemem Domain Name System (DNS), odpowiedzialnym za tłumaczenie nazw domen na adresy IP. Według oficjalnych komunikatów AWS, problem dotyczył rozwiązywania nazw dla API usługi DynamoDB - kluczowej bazy danych wykorzystywanej przez tysiące firm.
Tę sytuację można porównać do „chwilowej amnezji Onternetu”. Dane klientów były bezpieczne, ale aplikacje nie potrafiły się z nimi połączyć. Skutkiem były liczne przerwy i błędy w działaniu usług, które oparte są na infrastrukturze AWS.
Co przestało działać
Skala skutków była globalna. Serwis Downdetector odnotował gwałtowny wzrost liczby zgłoszeń. Miliony użytkowników raportowały problemy z działaniem aplikacji i stron internetowych. Według danych zebranych przez Reuters, The Verge i AP News, awaria dotknęła m.in.:
• Gry online: Fortnite, Roblox, Pokémon GO, PUBG Battlegrounds
• Media społecznościowe: Snapchat, Discord, Signal, Reddit
• Finanse: Coinbase, Robinhood, Venmo, Chime, a także brytyjskie banki Lloyds i Halifax
• Biznes i edukacja: Slack, Zoom, Shopify, Duolingo
• Streaming: Prime Video, Disney+, Twitch, Hulu
• AI i narzędzia online: Perplexity AI, ChatGPT (OpenAI), Claude (Anthropic), Character.AI
W Europie zakłócenia dotyczyły również niektórych usług rządowych i finansowych, m.in. brytyjskiego urzędu skarbowego HMRC oraz francuskich operatorów SFR i Free. W Polsce użytkownicy zgłaszali chwilowe trudności z dostępem do usług Poczty Polskiej i mBanku.
AWS: Problem został złagodzony
Choć koło południa AWS przekazał informację, że „podstawowy problem DNS został w pełni złagodzony”, to nawet po kilku godzinach użytkownicy wciąż zgłaszali problemy z dostępnością niektórych zasobów EC2 i usług sieciowych.
Ta awaria to ostrzeżenie dla całego Internetu
Awaria AWS uwidoczniła, jak silnie globalna sieć usług cyfrowych uzależniona jest od niewielkiej liczby dostawców chmurowych. AWS odpowiada za około 30 proc. globalnego rynku chmury, wyprzedzając Microsoft Azure (20 proc.) i Google Cloud (13 proc.).
"Niepokojące jest obserwowanie skutków takiego zdarzenia w brytyjskich bankach. Europa powinna poważnie rozważyć zmniejszenie swojej zależności od amerykańskich usług chmurowych" - zauważył prof. James Davenport z University of Bath.
To zdarzenie powinno zwrócić uwagę firm na dywersyfikację infrastruktury i korzystanie z rozwiązań multi-cloud oraz multi-region, które umożliwią zachowanie ciągłości działania w przypadku awarii jednego dostawcy lub regionu.
W reakcji na zdarzenie Komisja Europejska zapowiedziała, że temat cyfrowej suwerenności i odporności infrastruktury krytycznej zostanie poruszony na najbliższym szczycie przywódców UE w Brukseli.
AWS zapowiada analizę przyczyn
Amazon Web Services zapowiedział publikację szczegółowego raportu dotyczącego przyczyn awarii i planów zapobiegania podobnym zdarzeniom w przyszłości. Firma zapewniła, że wszystkie dane klientów pozostały nienaruszone, a problem dotyczył jedynie warstwy komunikacyjnej.
Choć globalne awarie, takie jak dzisiejsza, często pozostają poza kontrolą firm, wiele mniejszych problemów z wydajnością i kosztami usług chmurowych można skutecznie ograniczać dzięki odpowiednim narzędziom do monitorowania infrastruktury. O tym, jak efektywnie zarządzać zasobami w chmurze i maksymalizować zwrot z inwestycji, dowiesz siez tego artykułu.