Wyobraź sobie wpływ nagłego zakłócenia usług na Twój biznes. Klienci niezdolni do uzyskania dostępu do platformy, zawieszonych transakcji, a zespół ścigał się z zegariem, aby rozwiązać problem. Nie są to daleko idące scenariusze-są to rodzaje wyzwań, przed którymi stoi wiele organizacji w 2024 r., Kiedy niewielkie błędy konfiguracyjne spadły w poważne awarie.
Nasz coraz bardziej cyfrowy świat zapewnił niesamowite możliwości wzrostu i wydajności, ale wprowadza także nowe luki. Zmiany konfiguracyjne zawsze miały potencjał do usuwania usług, ale przy większej liczbie cyfrowego krajobrazu zarządzanego i skonfigurowanego z kodem, skłonność do błędów jest teraz znacznie wyższa. Nieprzymówki z 2024 r. Były wyraźnym przypomnieniem, że nawet drobne błędy mogą zakłócać operacje, zaufanie użytkowników DENT i stwarzać trwałe wyzwania dla firm we wszystkich branżach.
To sprawia, że Cyfrowa odporność Więcej niż najlepsza praktyka – jest to krytyczna konieczność. Badając głośne przerwy w 2024 r. I rozumiejąc ich przyczyny, firmy mogą podejmować możliwe do wykonania kroki w celu budowy silniejszych, bardziej niezawodnych systemów i zabezpieczenia ich cyfrowych doświadczeń.
Zidentyfikowanie przyczyny „trasy”
Jeśli chodzi o przerwy w konfiguracji, firmy były zakwestionowane przez dwa kluczowe trendy w ciągu ostatniego roku, które podnoszą znaczenie cyfrowej odporności w obliczu zakłóceń: Ciągłe doskonalenie i dostawa (CI/CD)oraz przyspieszone wdrożenie nowoczesnych aplikacji i usług w chmurze.
Pierwszy trend, CI/CD, charakteryzuje najlepsze praktyki nowoczesnej inżynierii oprogramowania. Pozwala zespołom produktów i inżynierii szybciej wprowadzać małe modyfikacje i ulepszenia, ale z drugiej strony szybkie tempo skraca czas dostępny na testy kompleksowe. Ponadto ciągle zmieniający się charakter kodu aplikacji sprawia, że jego zachowanie jest nieprzewidywalne, nawet na co dzień.
Drugim trendem jest przyspieszone wdrożenie nowoczesnych aplikacji i usług w chmurze, które są z natury dystrybuowane w zakresie projektowania, w tym ich infrastrukturę podstawową. Aplikacje cyfrowe obejmują wiele komponentów, które są razem zorganizowane w celu zapewnienia jednego, płynnego doświadczenia. Komponenty te są często opracowywane przez różne zespoły zwinne i mogą znajdować się w infrastrukturze własnej lub niezamieszkanej (stron trzecich). W tych środowiskach często obserwujemy przypadki, w których zespół dokonujący zmiany w celu poprawy własnej łatki lub części aplikacji, ale może nie mieć całkowitej widoczności, jaki wpływ może mieć ich zmiana na resztę infrastruktury.
Chociaż wynikowe błędne konfigurację mogą być niezamierzone, przerwy konfiguracji oprogramowania mogą mieć znaczący wpływ na wielkość zmiany. Jak to wygląda w praktyce dla organizacji?
2024 – Rok awarii
W przestrzeni sieci niezamierzona błędna konfiguracja zasad routingu była powtarzającym się problemem przez wiele lat. Na przykład usługodawca może błędnie wprowadzić do ścieżki ruchu, reklamując prefiks, którego nie jest właścicielem ani nie kontroluje i nie jest w stanie poradzić sobie z nagłym napływem ruchu, co prowadzi do czasu i innych niepowodzeń związanych z łącznością dla użytkowników końcowych. Jeden przykład miał miejsce w październiku ubiegłego roku, kiedy wiele Usługi Ovhcloud podlegały wadliwej konfiguracji To wpłynęło na kilku regionalnych dostawców telekomunikacyjnych.
Dzięki przyspieszonym przyjęciu chmury błędy konfiguracji stały się również coraz powszechnym problemem w chmurze, wpływając na funkcjonalność bezpieczeństwa, wydajność i dostępność. Na przykład w zeszłym roku wpłynęły na dwa zasoby Azure: jeden w styczniu, Gdy błędna zmiana konfiguracji wywołała uśpioną wadę, która spowodowała 7-godzinną degradację menedżera zasobów Azure; i jeden w lipcugdy zmiana konfiguracji wpłynęła na połączenia zaplecza do obliczania i przechowywania zasobów, ostatecznie wpływając na usługi, takie jak Confluent, Elastic Cloud i Microsoft 365. Później w tym roku, Salesforce również doznał podobnego incydentu To uniemożliwiło globalnym użytkownikom dostęp do usługi w chmurze, gdy krytyczne informacje zostały pominięte w zaktualizowanym pliku konfiguracyjnym.
Nie jest to tylko infrastruktura sieci lub w chmurze, w której występują błędy konfiguracji. Problemy objawiają się również w samych aplikacjach. W szczególności w lipcu ubiegłego roku, problem z pojedynczy plik konfiguracyjny CrowdStrike spowodowało awarie systemowe i „niebieskie ekrany śmierci” (BSOD) w dotkniętych systemach systemu Windows na całym świecie – ale były również inne incydenty. A Seria tymczasowych problemów z Chatgpt wskazał zmiany konfiguracji i ponowną architekturę w celu poprawy wrażeń użytkownika. I Kwadratowe kupcy doświadczyli problemów z płatnościami Gdy nowej konfiguracji funkcji nie można interpretować przez urządzenia z Androidem.
Cyfrowa odporność w obliczu zakłóceń
W 2024 r. Wiele zmian konfiguracji nie tylko zdegradowało doświadczenia cyfrowe, ale także całkowicie zakłóciło świadczenie usługi. To podzbiór incydentów, który wytworzył największe lekcje z 2024 r., Które nie należy powtarzać w 2025 r.
W przypadku właścicieli produktów i zespołów operacyjnych dążenie do ciągłej poprawy pozostaje tak ważne, jak zawsze, ale wrażenia użytkownika wymaga większego skupienia. Technologie automatyzacji i pewności mają tutaj do odegrania pewną rolę. Rozwiązania te mogą porównywać ciągłe wzorce ze znanymi wzorcami awarii, zapewniając widoczność i skorelowanie sygnałów, aby umożliwić wczesne wykrycie degradacji lub zakłóceń w aplikacji lub innym aktywach IT. W przypadku błędu zmiany konfiguracji może to być różnica między szybkim cofaniem a długim procesem rozwiązywania problemów.
Pomyślnie wdrażanie a zmiana konfiguracji W pierwszej próbie jest kluczowe dla firm we wszystkich branżach i wskazuje, że organizacja ma dostęp do dużych danych i spostrzeżeń-od użytkownika końcowego do chmury, umożliwiając im odpowiednią ocenę potencjalnego wpływu zmian wprowadzonych w dowolnym momencie w łańcuchu dostawy kompleksowej.
Niezależnie od tego, czy jest to spowodowane błędną konfiguracją lub w inny sposób, można wyciągnąć wnioski z przerw w 2024 r. I minimalizację występowania i wpływu jakichkolwiek zakłóceń będzie podstawą do osiągnięcia cyfrowej odporności w 2025 r.
Mick Hicks jest głównym analitykiem rozwiązań w Cisco Thousandeyes