Cztery kluczowe wpływy sztucznej inteligencji na przechowywanie danych


Sztuczna inteligencja (AI) to jedna z najszybciej rozwijających się technologii dla przedsiębiorstw.

Zdaniem IBM42% firm zatrudniających ponad 1000 pracowników korzysta obecnie ze sztucznej inteligencji w swojej działalności. Kolejne 40% testuje lub eksperymentuje z tym rozwiązaniem.

Duża część tych innowacji jest napędzana przez generatywną sztuczną inteligencję (GenAI) lub duże modele językowe (LLM), takie jak ChatGPT. Coraz częściej te formy sztucznej inteligencji są wykorzystywane w aplikacjach korporacyjnych lub za pośrednictwem chatbotów, które wchodzą w interakcję z klientami.

Większość systemów GenAI jest na razie oparta na chmurze, ale dostawcy pracują nad tym, aby było to łatwiejsze zintegrować LLM z danymi przedsiębiorstwa.

Potrzebne są LLM i bardziej „konwencjonalne” formy sztucznej inteligencji i uczenia maszynowego znaczne zasoby obliczeniowe i do przechowywania danychlokalnie lub w chmurze.

Tutaj przyglądamy się niektórym punktom nacisku wokół przechowywania danycha także potrzebę zapewnienia zgodności na etapach szkoleniowych i operacyjnych sztucznej inteligencji.

Reklama

Szkolenie AI stawia duże wymagania we/wy pamięci masowej

Modele AI należy przeszkolić przed użyciem. Im lepsze szkolenie, tym bardziej niezawodny model – a jeśli chodzi o szkolenie modeli, im więcej danych, tym lepiej.

„Krytycznym aspektem każdego modelu jest to, jak dobry jest” – mówi Roy Illsley, główny analityk ds. rozwiązań chmurowych i centrów danych w firmie Omdia. „To adaptacja powiedzenia: «Słabe dane plus doskonały model równa się słaba prognoza», które mówi wszystko. Dane muszą być czyste, wiarygodne i dostępne.”

W rezultacie faza szkoleniowa to moment, w którym projekty AI powodują największe zapotrzebowanie na infrastrukturę IT, w tym pamięć masową.

Nie ma jednak jednej architektury pamięci masowej obsługującej sztuczną inteligencję. Rodzaj przechowywania będzie zależał od rodzaju danych.

W przypadku dużych modeli językowych większość szkoleń odbywa się na danych nieustrukturyzowanych. Zwykle będzie to zapisane w aktach lub przechowywanie obiektów.

Tymczasem modele finansowe wykorzystują dane strukturalne, gdzie przechowywanie blokowe jest bardziej powszechne, a będą projekty AI wykorzystujące wszystkie trzy typy przechowywania.

Innym czynnikiem jest miejsce, w którym odbywa się szkolenie modelowe. W idealnym przypadku dane muszą znajdować się jak najbliżej zasobów obliczeniowych.

W przypadku modelu opartego na chmurze typowym wyborem jest przechowywanie w chmurze. Wąskie gardła we/wy w infrastrukturze chmury stanowią mniejszy problem niż opóźnienia w przenoszeniu danych do i z chmury, a dostawcy chmur hiperskalowych oferują teraz szereg opcji przechowywania o wysokiej wydajności.

Obowiązuje również sytuacja odwrotna. Jeśli dane znajdują się lokalnie, na przykład w firmowej bazie danych lub systemie planowania zasobów przedsiębiorstwa, do uruchomienia modelu sensowne może być użycie lokalnych obliczeń. Dzięki temu twórcy sztucznej inteligencji mają większą kontrolę nad konfiguracją sprzętu.

Tworzą modele AI szerokie wykorzystanie procesorów graficznych (procesory graficzne), które są drogie, dlatego kluczowe jest dostosowanie pamięci masowej do wymagań procesora graficznego. Jednakże, w niektórych przypadkach, Jednostki centralne częściej stanowią wąskie gardło niż przechowywanie. Wszystko sprowadza się do typu modelu, danych, na których jest trenowany, i dostępnej infrastruktury.

„Musi być tak wydajny, jak to tylko możliwe” – mówi Patrick Smith, dyrektor ds. technologii w regionie EMEA w Pure Storage. „To jest najważniejsze. Potrzebujesz zrównoważonego środowiska pod względem możliwości i wydajności procesorów graficznych, sieci i wewnętrznej pamięci masowej.

Sposób, w jaki firma planuje wykorzystać swój model sztucznej inteligencji, będzie również miał wpływ na wybór przechowywania lokalnego lub w chmurze. Tam, gdzie faza szkolenia sztucznej inteligencji jest krótkotrwała, przechowywanie w chmurze będzie prawdopodobnie najbardziej opłacalne, a ograniczenia wydajności mniej dotkliwe. Firma może zwolnić pamięć po zakończeniu szkolenia.

Jeśli jednak dane muszą być przechowywane na etapie operacyjnym – w celu dostrajania, ciągłego szkolenia lub przetwarzania nowych danych – wówczas zalety chmury dostępnej na żądanie ulegają osłabieniu.

Wnioskowanie AI wymaga małych opóźnień

Po przeszkoleniu modelu jego wymagania dotyczące przechowywania danych powinny się zmniejszyć. Produkcyjny system sztucznej inteligencji obsługuje zapytania użytkowników lub klientów za pomocą dostrojonych algorytmów, co może być bardzo wydajne.

„Model powstały w wyniku szkolenia AI jest na ogół niewielki w porównaniu ze skalą zasobów obliczeniowych wykorzystanych do jego szkolenia i nie wymaga zbyt dużej ilości miejsca na dysku” – mówi Christof Stührmann, dyrektor ds. inżynierii chmury w Taiga Cloud, część Northern Data Grupa.

Niemniej jednak system nadal posiada wejścia i wyjścia danych. Użytkownicy lub aplikacje wprowadzają zapytania do modelu, a model następnie w podobny sposób dostarcza wyniki.

Na tym etapie operacyjnym, czyli wnioskowania, sztuczna inteligencja potrzebuje wydajnych operacji we/wy, aby była skuteczna. Ilość wymaganych danych może być o rząd wielkości mniejsza niż w przypadku uczenia, ale ramy czasowe wprowadzania danych i zwracania zapytań można mierzyć w milisekundach.

Niektóre kluczowe przypadki użycia sztucznej inteligencji, takie jak bezpieczeństwo cybernetyczne i wykrywanie zagrożeń, automatyzacja procesów IT oraz skanowanie biometryczne w celu zapewnienia bezpieczeństwa lub rozpoznawania obrazu w produkcji, wymagają szybkich wyników.

Nawet w obszarach, w których GenAI jest wykorzystywane do tworzenia chatbotów, które wchodzą w interakcję jak ludzie, system musi być wystarczająco szybki, aby odpowiedzi wydawały się naturalne.

Ponownie wszystko sprowadza się do przyjrzenia się modelowi i temu, co system AI chce zrobić. „Niektóre aplikacje będą wymagały bardzo małych opóźnień” – mówi Illsley. „W związku z tym sztuczna inteligencja musi być zlokalizowana jak najbliżej użytkownika, a dane mogą stanowić bardzo małą część aplikacji. Inne aplikacje mogą być mniej wrażliwe na opóźnienia, ale wymagają dużych ilości danych, w związku z czym sztuczna inteligencja musi być zlokalizowana w pobliżu pamięci masowej o wymaganej pojemności i wydajności”.

Zarządzanie danymi dla AI

Trzeci wpływ sztucznej inteligencji na pamięć masową to ciągła potrzeba zbierać i przetwarzać dane.

W przypadku „konwencjonalnej” sztucznej inteligencji i uczenia maszynowego badacze danych chcą mieć dostęp do jak największej ilości danych, wychodząc z założenia, że ​​więcej danych oznacza dokładniejszy model.

Wiąże się to z szerszym podejściem organizacji do zarządzania danymi i pamięcią masową. Rozważa się tutaj, czy dane są przechowywane na dysku flash, czy na dysku obrotowym, gdzie przechowywane są archiwa oraz zasady przechowywania danych historycznych.

Szkolenie w zakresie sztucznej inteligencji i faza wnioskowania będą czerpać dane z całej organizacji, potencjalnie z wielu aplikacji, wkładu ludzkiego i czujników.

Twórcy sztucznej inteligencji zaczęli postrzegać sieci danych jako jeden ze sposobów „zasilania” systemów sztucznej inteligencji, ale wydajność może stanowić problem. Prawdopodobnie konieczne będzie zbudowanie sieci Data Fabric na różnych poziomach pamięci masowej, aby zrównoważyć wydajność i koszty.

Na razie GenAI stanowi mniejsze wyzwanie, ponieważ LLM są szkolone w oparciu o dane internetowe, ale to się zmieni, ponieważ coraz więcej firm będzie chciało korzystać z LLM przy użyciu własnych danych.

Sztuczna inteligencja, przechowywanie danych i zgodność

Przedsiębiorstwa muszą mieć pewność, że ich dane AI są bezpieczne i przechowywane zgodnie z lokalnymi przepisami i regulacjami.

Będzie to miało wpływ na miejsce przechowywania danych, a organy regulacyjne będą coraz bardziej zaniepokojone suwerennością danych. W przypadku usług AI opartych na chmurze wiąże się to z koniecznością zrozumienia, gdzie przechowywane są dane na etapach uczenia i wnioskowania. Organizacje muszą także kontrolować sposób przechowywania danych wejściowych i wyjściowych modelu.

Dotyczy to również modeli działających na systemach lokalnych, choć istniejących ochrona danych i zgodność zasady powinny obejmować większość przypadków użycia sztucznej inteligencji.

Niemniej jednak warto zachować ostrożność. „Najlepszą praktyką jest zaprojektowanie, jakie dane trafiają do puli szkoleniowej na potrzeby uczenia się sztucznej inteligencji oraz jasne określenie, jakie dane chcesz, a jakich nie chcesz zachować w modelu” – mówi Richard Watson-Bruhn, ekspert ds. bezpieczeństwa danych w PA Consulting .

„Kiedy firmy korzystają z narzędzia takiego jak ChatGPT, przechowywanie tych danych w chmurze i przesyłanie za granicę może być całkowicie w porządku, ale muszą obowiązywać warunki umowy regulujące to udostępnianie”.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Wszystkie laptopy PC Copilot Plus zaprezentowane na Microsoft Surface 2024

Dodatkowo Powierzchnia Pro I Laptop powierzchniowyMicrosoft ogłosił zbiór Komputery Copilot Plus od wszystkich głównych producentów OEM. Oto wszystkie komputery Copilot Plus ogłoszone...

Wewnątrz misji Microsoftu polegającej na zniszczeniu MacBooka Air

Microsoft jest pewien, że w końcu udało mu się przejść na chipy Arm — tak pewny, że tym razem firma spędziła cały dzień...

Galaxy Book4 Edge: komputer PC nowej generacji ze sztuczną inteligencją firmy Samsung rozszerza ekosystem Galaxy AI

Firma Samsung Electronics zaprezentowała dziś Galaxy Book4 Edge, następną generację komputerów stacjonarnych wyposażonych w sztuczną inteligencję. Dzięki wydajności obliczeniowej AI 45 TOPS...
Advertisment