AWS potwierdza, że ​​pracuje nad „pełnym przywróceniem” usług po poważnej awarii


Amazon Web Services (AWS) oświadczył, że pracuje nad „pełnym przywróceniem” środowisk chmurowych swoich klientówpo „problemie operacyjnym” w regionie centrum danych w Północnej Wirginii, który spowodował awarię wielu witryn i usług internetowych na całym świecie.

Według witryny śledzenia przestojów użytkownicy usług giganta chmury publicznej zaczęli zgłaszać problemy około 8 rano czasu brytyjskiego Detektor przestojów.

Mniej więcej w tym samym czasie usługa AWS Health Dashboard, która zapewnia użytkownikom przegląd działania środowisk chmurowych firmy, zaczęła śledzić problemy z wieloma usługami hostowanymi w regionie US-East-1 w Północnej Wirginii.

Po tej wiadomości kilkakrotnie przyznano, że istnieją „poważne poziomy błędów” wpływających na usługi AWS w regionie US-East-1, a także zapewniono, że firma ma pod ręką inżynierów, którzy „jesteśmy natychmiast zaangażowani i aktywnie pracują zarówno nad złagodzeniem problemu, jak i nad pełnym zrozumieniem pierwotnej przyczyny”.

Pulpit nawigacyjny potwierdził później, około godziny 10:00 czasu brytyjskiego, że: „Globalne usługi lub funkcje, które opierają się na punktach końcowych US-East-1… również mogą powodować problemy”.

Następnie firma AWS stwierdziła, że ​​awaria jest związana z problemem DNS wpływającym na usługę bazy danych DynamoDB NoSQL: „Zidentyfikowaliśmy potencjalną podstawową przyczynę liczby błędów dla interfejsów API DynamoDB w regionie US-East-1. Z naszego dochodzenia wynika, że ​​problem wydaje się być powiązany z rozpoznawaniem przez DNS punktu końcowego interfejsu DynamoDB API w regionie US-East-1.

Reklama

Wiadomo, że trudności techniczne wywołały efekt domina u wielu klientów AWS na całym świecie, którzy również zgłosili problemy wynikające z przestoju usług chmurowego giganta.

Wśród poszkodowanych jest dostawca usług finansowych Lloyds Bank wraz ze spółkami zależnymi Halifax i Royal Bank of Scotland, a także media społecznościowe i usługi komunikacyjne, takie jak Snapchat i Signal, a także portale z grami online, Fortnite i Roblox.

Usługi internetowe należące do Amazona, takie jak witryna detaliczna i usługa dzwonka do drzwi Ring, również ucierpiały z powodu awarii.

Computer Weekly skontaktował się z AWS, aby uzyskać szczegółowe informacje na temat spodziewanego rozwiązania problemu. W odpowiedzi rzecznik Computer Weekly został skierowany do pulpitu nawigacyjnego AWS Health Dashboard, gdzie wśród najnowszych aktualizacji znajdują się stwierdzenia dotyczące tego, jak firma stara się w pełni przywrócić usługi, których dotyczy problem, i jest na etapie, w którym zaczęła pomyślnie ponownie uruchamiać usługi dotknięte problemami.

Mimo to obserwatorzy rynku chmury publicznej szybko zwrócili uwagę, że szeroka gama użytkowników i usług, które w wyniku awarii zostały odłączone od sieci, może wskazywać na nadmierne uzależnienie świata od usług AWS.

Eksperci twierdzili, że incydenty uwypukliły, dlaczego dla przedsiębiorstw tak ważna jest dywersyfikacja zestawu dostawców usług w chmurze, z którymi współpracują, w celu zapewnienia czasu pracy i dostępności usług.

Nicky Stewart, starszy doradca The Open Cloud Coalition, organizacji prokonkurencyjnej w organizacji zajmującej się chmurą publiczną, powiedział, że awaria „dotkliwie przypomina o ryzyku nadmiernego polegania na dwóch dominujących dostawcach usług w chmurze”, biorąc pod uwagę, jak powszechne były jej skutki.

„Jest zbyt wcześnie, aby ocenić skutki gospodarcze, ale dla kontekstu szacuje się, że zeszłoroczna globalna awaria CrowdStrike kosztowała brytyjską gospodarkę od 1,7 do 2,3 miliarda funtów” – powiedział Stewart.

„Takie incydenty wyraźnie pokazują potrzebę bardziej otwartego, konkurencyjnego i interoperacyjnego rynku usług w chmurze – takiego, na którym żaden pojedynczy dostawca nie jest w stanie zatrzymać tak dużej części naszego cyfrowego świata”.

Dai Vaughan, dyrektor ds. technologii w firmie konsultingowej ds. transformacji cyfrowej Public Digital, powiedział, że awaria AWS pokazuje, że przypadkowa awaria technologii może stanowić równie duże ryzyko dla działalności firmy jak cyberatak.

Z tego powodu stwierdził, że firmy powinny wykorzystać dzisiejsze wiadomości, aby wypracować „defensywny sposób myślenia”, jeśli chodzi o unikanie zagrożeń związanych z przestojami, który „obejmuje gotowość i odporność” w perspektywie długoterminowej.

“Jedną rzeczą, jaką każda organizacja powinna zrobić, aby się przygotować, jest utworzenie wyznaczonego zespołu reagowania kryzysowego. Powinien on składać się z mniej niż 12 osób i obejmować osoby posiadające wiedzę specjalistyczną w zakresie IT, zarządzania danymi, komunikacji i zarządzania interesariuszami, a także kierownictwo wyższego szczebla” – powiedział Vaughan.

„Ostatecznie odporność nie polega na całkowitym wyeliminowaniu ryzyka, ale na jego zrozumieniu, zaplanowaniu i kultywowaniu kultury, która potrafi absorbować wstrząsy i szybko się regenerować”.

Kontynuował: „Ci, którzy zastosują to holistyczne, przewidywalne podejście oparte na erze internetu, nie tylko ochronią swoje operacje, ale także zachowają zaufanie klientów i partnerów w niepewnym krajobrazie cyfrowym”.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Powtórka plotek: aktualizacja Siri, nowy składany iPhone i iPad, chip A20

To jest Powtórka plotekcotygodniowy felieton o godz 9 do 5Mac oferuje szybki przegląd najnowszych plotek dotyczących produktów Apple, wraz z analizą i komentarzem....

Assassin’s Creed Shadows otrzyma w tym roku oficjalny port na Switcha 2 wraz z większą ilością darmowej zawartości fabularnej

Assassin's Creed Shadows jest dostępny już od marca, ale teraz Ubisoft przenosi historię Naoe i Yasuke na Nintendo Switch 2 wraz z zupełnie...

Netflix adaptuje wielokrotnie nagradzany komiks o Czarnej Dziurze Charlesa Burnsa

Netflix udostępnia adaptację wielokrotnie nagradzanej powieści Charlesa Burnsa Czarna dziura komiksy dla telewizji, z udziałem scenarzysty i reżysera Jane Schoenbrun (Widziałem blask telewizora,...
Advertisment