Pomimo najlepszych wysiłków operatorów centrów danych na całym świecie w celu ograniczenia przestojów w ich obiektach, dotkliwość i finansowe skutki awarii farm serwerów nadal rosną.
Jest to zgodne z czwartym corocznym badaniem analizy przestojów przeprowadzonym przez think-tank Uptime Institute zajmujący się odpornością centrów danych, który twierdzi, że wskaźniki przestojów rosną pomimo „silnych inwestycji” operatorów w technologie mające na celu zapobieganie przestojom.
„Całkowity wpływ i koszty przestojów nie kurczą się – jak można było mieć nadzieję – ale w rzeczywistości rosną” – powiedziała organizacja w 23-stronicowym Roczna analiza przestojów. „Inwestycja w opartą na chmurze i rozproszoną odporność może pomogła zmniejszyć wpływ awarii na poziomie witryny, ale wprowadziła również podatną na błędy złożoność. Lepsze szkolenie kadry kierowniczej i personelu pomogłoby w ograniczeniu tych niepowodzeń”.
Informacje zawarte w raporcie opierają się na analizie publicznie dostępnych raportów na temat awarii centrów danych, a także danych zgromadzonych przez Uptime Institute w ramach własnych ankiet branżowych i opinii członków.
Powiedział, że jego odkrycia potwierdzają, że chociaż centra danych są znacznie bardziej niezawodne niż kiedyś, dzięki „dziesiątkom innowacji, inwestycjom i lepszemu zarządzaniu”, coraz większe uzależnienie od nich społeczeństwa oznacza, że „poważne awarie wydają się bardziej powszechne”.
Kontynuował: „Pomimo tego, z szeroko zakrojonych badań Uptime jasno wynika, że przestoje w 2021 i 2022 r. nadal występują w tempie, które nie jest wymiernie niższe niż w poprzednich latach. Dowody wskazują, że zakłócenia i koszty przestojów w rzeczywistości rosną.
„Krótko mówiąc, branża infrastruktury krytycznej walczy o osiągnięcie wysokich standardów, których oczekują klienci – i które są zawarte w umowach o gwarantowanym poziomie usług”.
Jej dane ujawniły, że jedna na pięć organizacji zgłosiła „poważną” lub „poważną” awarię w ciągu ostatnich trzech lat, co stanowi „niewielki trend wzrostowy w częstości występowania poważnych przestojów”.
Jednocześnie odsetek przestojów, które kosztowały poszkodowaną firmę ponad 100 000 USD, wzrósł w ostatnich latach, przy czym ponad 60% awarii powoduje obecnie co najmniej 100 000 USD całkowitych strat, co stanowi znaczny wzrost w porównaniu z 39% w 2019 r.
W tym samym okresie udział przestojów, które kosztowały powyżej 1 miliona dolarów, wzrósł z 11% do 15%.
Raport głosi, że wydłużają się również przerwy w dostawie energii. „Przerwa między początkiem poważnej awarii publicznej a pełnym wyzdrowieniem znacznie się rozciągnęła w ciągu ostatnich pięciu lat” – napisano. „Prawie 30% tych przerw w 2021 r. trwało dłużej niż 24 godziny – niepokojący wzrost z zaledwie 8% w 2017 r.”
Problemy z zasilaniem były tradycyjnie najczęstszą przyczyną awarii centrów danych, ale Uptime Institute przewidział w swoim raporcie z 2021 r. że problemy z siecią staną się najczęstszym źródłem zdarzeń przestoju farmy serwerów.
Raport z 2022 r. potwierdza ten pogląd, a wspomniane przestoje są coraz częściej przypisywane problemom z siecią, oprogramowaniem i systemami, ponieważ zwiększa się skala i złożoność infrastruktury cyfrowej stanowiącej podstawę wdrożeń chmury w przedsiębiorstwach.
„Coraz większe wykorzystanie usług w chmurze zmieniło charakterystykę przestojów w ostatnich latach” — czytamy w raporcie. „Awarie są częściej spowodowane błędami oprogramowania, systemów lub konfiguracji – co jest odzwierciedleniem rosnącej złożoności IT i związanej z nią sieci.
„Takie przerwy mogą również wpłynąć na wiele usług IT i organizacji, odzwierciedlając współzależność systemów i koncentrację klientów korzystających z pojedynczych dostawców, często w pojedynczych strefach dostępności”.
Członek założyciel i dyrektor wykonawczy Uptime Institute Intelligence, Andy Lawrence, który był współautorem raportu, powiedział, że sytuacja ulegnie poprawie z czasem, ale na razie przerwy będą się utrzymywać.
W tym momencie organizacja przewiduje – na podstawie wcześniejszych danych o przestojach publicznych centrów danych – że każdego roku na całym świecie wystąpi co najmniej 20 poważnych, głośnych incydentów przestojów IT.
„Z czasem poprawi się zarówno technologia, jak i praktyki operacyjne” – powiedział Lawrence. „Ale obecnie awarie pozostają głównym problemem dla klientów, inwestorów i organów regulacyjnych. Operatorzy będą w stanie najlepiej sprostać temu wyzwaniu dzięki rygorystycznemu szkoleniu personelu i procedurom operacyjnym, aby złagodzić błąd ludzki stojący za wieloma z tych awarii.