Pomagają ulepszyć trzy kluczowe aspekty podróży AI-spożycie Data, trening modelowy i wnioskowanie o dużej objętości. Fabryki AI są budowane tak, aby generować tokeny szybciej i dokładniej, przy użyciu trzech krytycznych stosów technologicznych: modeli AI, przyspieszonej infrastruktury obliczeniowej i oprogramowania klasy korporacyjnej. Czytaj dalej, aby dowiedzieć się, w jaki sposób fabryki AI pomagają przedsiębiorstwom i organizacjom na całym świecie w przekształcaniu najcenniejszego towaru cyfrowego – data – potencjał przychodów.
Od ekonomii wnioskowania po tworzenie wartości
Przed zbudowaniem fabryki AI ważne jest, aby zrozumieć ekonomię wnioskowania – jak zrównoważyć koszty, efektywność energetyczną i rosnące zapotrzebowanie na sztuczną inteligencję. Przepustowość odnosi się do objętości tokenów, które może wytworzyć model. Opóźnienie to ilość tokenów, które model może wysyłać w określonym czasie, co często mierzy się w czasie, aby pierwszy token – jak trwa to, zanim pojawi się pierwsza wyjście – i czas na token wyjściowy lub to, jak szybko pojawi się każdy dodatkowy token. Goodput to nowsza metryka, mierząca, ile przydatnych wyjściowych może dostarczyć system podczas trafienia kluczowych celów opóźnienia.
Doświadczenie użytkownika jest kluczowe dla każdej aplikacji, a to samo dotyczy fabryk AI. Wysoka wydajność oznacza mądrzejszą sztuczną inteligencję, a niższe opóźnienie zapewnia terminowe odpowiedzi. Gdy oba te miary są odpowiednio zrównoważone, fabryki AI mogą zapewnić angażujące doświadczenia użytkowników, szybko dostarczając pomocne wyniki. Na przykład agent obsługi klienta zasilany przez AI, który odpowiada w ciągu pół sekundy, jest o wiele bardziej angażujący i cenny niż ten, który odpowiada w ciągu pięciu sekund, nawet jeśli oba ostatecznie generują tę samą liczbę tokenów w odpowiedzi. Firmy mogą skorzystać z okazji, aby umieścić konkurencyjne ceny na ich produkcję, co powoduje większy potencjał przychodów na token. Mierzenie i wizualizacja tej równowagi może być trudne – w tym miejscu pojawia się koncepcja granicy Pareto.
Wyjście fabryczne AI: wartość wydajnych tokenów
Pareto Frontier, reprezentowana na poniższym rysunku, pomaga wizualizować najbardziej optymalne sposoby zrównoważenia kompromisów między konkurencyjnymi celami-takich jak szybsze odpowiedzi w porównaniu z większą liczbą użytkowników jednocześnie-podczas wdrażania sztucznej inteligencji na dużą skalę.
Oś pionowa reprezentuje wydajność przepustowości, mierzoną w tokenach na sekundę (TPS), dla danej ilości zastosowanej energii. Im wyższa ta liczba, tym więcej żądań, które fabryka AI może obsłużyć jednocześnie. Oś pozioma reprezentuje TPS dla jednego użytkownika, reprezentując, ile czasu zajmuje model, aby udzielić użytkownikowi pierwszą odpowiedź na monit. Im wyższa wartość, tym lepsze oczekiwane wrażenia użytkownika. Niższe opóźnienie i szybsze czasy reakcji są ogólnie pożądane dla interaktywnych aplikacji, takich jak chatboty i narzędzia analizy w czasie rzeczywistym.
Maksymalna wartość Pareto Frontier – nałożona jako najwyższa wartość krzywej – reprezentuje najlepsze wyjście dla podanych zestawów konfiguracji operacyjnych. Celem jest znalezienie optymalnej równowagi między przepustowością a doświadczeniem użytkownika dla różnych obciążeń AI i aplikacji. Najlepsze fabryki AI wykorzystują przyspieszone obliczenia do zwiększenia tokenów na wat – optymalizując wydajność AI, jednocześnie dramatycznie zwiększając efektywność energetyczną w fabrykach i aplikacjach AI. Śledziliśmy doświadczenia użytkowników: podczas uruchomienia na GPU NVIDIA H100 skonfigurowanym do użytkownika. Przy skonfigurowanym doświadczeniu użytkownika Blackwell Ultra zapewnia ponad 10 -krotną lepszą przepustowość i prawie 5 -krotną przepustowość, umożliwiając do 50x wyższy potencjał przychodów.
Jak działa fabryka AI w praktyce
Fabryka AI to system komponentów, które łączą się, aby przekształcić dane w inteligencję. Niekoniecznie ma to formę wysokiej klasy, lokalnych centrum danych, ale może być modelem chmurowym lub hybrydowym, działającym na przyspieszonej infrastrukturze obliczeniowej. Lub może to być infrastruktura telekomunikacyjna, która może zarówno zoptymalizować sieć, jak i dokonać wnioskowania na krawędzi. Każda dedykowana przyspieszona infrastruktura komputerowa w połączeniu z oprogramowaniem przekształcającym dane w inteligencję za pośrednictwem sztucznej inteligencji jest w praktyce fabryką AI.
Komponenty obejmują przyspieszone obliczenia, sieci, oprogramowanie, pamięć, systemy oraz narzędzia i usługi. Kiedy dana osoba wynika z systemu AI, pełny stos fabryki AI idzie do pracy. Fabryka tokenizuje monit, przekształcając dane w małe jednostki znaczenia – jak fragmenty obrazów, dźwięków i słów. Każdy token jest przekładany przez model AI napędzany GPU, który wykonuje intensywne rozumowanie w modelu AI w celu wygenerowania najlepszej odpowiedzi. Każdy procesor graficzny wykonuje równoległe przetwarzanie-obsługujące szybkie sieci i wzajemne połączenia-w celu jednoczesnego chrupania danych. Fabryka AI uruchomi ten proces dla różnych podpowiedzi od użytkowników na całym świecie. Jest to wnioskowanie w czasie rzeczywistym, wytwarzając inteligencję w skali przemysłowej.
Ponieważ fabryki AI ujednolicają pełny cykl życia AI, system ten stale się poprawia: wnioskowanie jest rejestrowane, przypadki krawędzi są oznaczane do przekwalifikowania i optymalizacji pętli zaostrzone z czasem – wszystkie bez ręcznej interwencji, przykład Goodput in Action. Wiodąca globalna firma zajmująca się technologią bezpieczeństwa Lockheed Martin zbudowała własną fabrykę AI, aby wspierać różnorodne zastosowania w swojej działalności. Za pośrednictwem Lockheed Martin AI Center firma scentralizowała swoje generatywne obciążenia AI na superpodie NVIDIA DGX w celu szkolenia i dostosowywania modeli AI, wykorzystują pełną moc wyspecjalizowanej infrastruktury i zmniejszają koszty ogólne środowisk chmurowych.
„Dzięki naszej lokalnej fabryce AI zajmujemy się tokenizacją, szkoleniem i rozmieszczeniem w domu”-powiedział Greg Forrest, dyrektor fundacji AI w Lockheed Martin. „Nasza superpod DGX pomaga nam przetwarzać ponad 1 miliard tokenów tygodniowo, umożliwiając dostrajanie, generowanie unoszącego się od odzyskiwania lub wnioskowanie w naszych dużych modelach językowych. To rozwiązanie unika eskalacji kosztów i znacznych ograniczeń opłat opartych na wykorzystaniu tokena”.
NVIDIA Full Stack Technologies for AI Factory
Fabryka AI przekształca sztuczną inteligencję z serii izolowanych eksperymentów w skalowalny, powtarzalny i niezawodny silnik innowacji i wartości biznesowej. NVIDIA zapewnia wszystkie komponenty potrzebne do budowy fabryk AI, w tym przyspieszone obliczenia, wysokowydajne procesory graficzne, sieci o wysokiej przepustowości i zoptymalizowane oprogramowanie.
Na przykład Nvidia Blackwell GPU można podłączyć poprzez sieci, Czarno w cieczy dla efektywności energetycznej i zorganizowane z oprogramowaniem AI.
. Nvidia Dynamo Platforma wnioskowania typu open source oferuje system operacyjny dla fabryk AI. Jest zbudowany w celu przyspieszenia i skalowania sztucznej inteligencji z maksymalną wydajnością i minimalnym kosztem. Dzięki inteligentnemu routowaniu, planowaniu i optymalizacji żądań wnioskowania Dynamo zapewnia, że każdy cykl GPU zapewnia pełne wykorzystanie, prowadząc produkcję tokenów o szczytowej wydajności.
Nvidia Blackwell GB200 NVL72 systemy i Nvidia Infiniband Networking jest dostosowany do maksymalizacji przepustowości tokena na wat, dzięki czemu fabryka AI jest wysoce wydajna zarówno z całkowitej przepustowości, jak i perspektyw niskich opóźnień.
Poprzez sprawdzanie zoptymalizowanych rozwiązań pełnokompowych organizacji mogą efektywnie budować i utrzymywać najnowocześniejsze systemy AI. Pełny stos fabryki AI wspiera przedsiębiorstwa w osiąganiu doskonałości operacyjnej, umożliwiając im szybsze wykorzystanie potencjału AI.