NVIDIA Hopper przoduje w dziedzinie generatywnej sztucznej inteligencji w MLPerf


To już oficjalne: NVIDIA dostarczyła najszybszą na świecie platformę do testów zgodnych ze standardami branżowymi generatywna sztuczna inteligencja. W najnowszych testach porównawczych MLPerf oprogramowanie NVIDIA TensorRT-LLM — oprogramowanie przyspieszające i upraszczające złożone zadania wnioskowania na dużych modelach językowych — zwiększyło wydajność Skoczek NVIDIA architektury procesorów graficznych na GPT-J LLM prawie 3 razy więcej niż wyniki zaledwie sześć miesięcy temu. Ogromne przyspieszenie demonstruje moc platformy NVIDIA z pełnym stosem układów, systemów i oprogramowania, która jest w stanie sprostać wysokim wymaganiom związanym z generatywną sztuczną inteligencją. Wiodące firmy używają TensorRT-LLM do optymalizacji swoich modeli. A NVIDIA NIM — zestaw mikrousług wnioskowania obejmujący silniki wnioskowania, takie jak TensorRT-LLM — ułatwia firmom wdrażanie platformy wnioskowania NVIDIA jak nigdy dotąd.

Podnoszenie poprzeczki w zakresie generatywnej sztucznej inteligencji
TensorRT-LLM działa Procesory graficzne NVIDIA H200 Tensor Core— najnowsze procesory graficzne Hopper ze zwiększoną pamięcią — zapewniły najszybsze wnioskowanie dotyczące wydajności w największym jak dotąd teście generatywnej sztucznej inteligencji MLPerf. Nowy test porównawczy wykorzystuje największą wersję Llama 2, najnowocześniejszego modelu wielkojęzykowego zawierającego 70 miliardów parametrów. Model jest ponad 10 razy większy niż GPT-J LLM zastosowany po raz pierwszy we wrześniowych testach porównawczych. Procesory graficzne H200 ze zwiększoną pamięcią w swoim debiucie w MLPerf wykorzystywały TensorRT-LLM do wytwarzania do 31 000 tokenów na sekundę, co stanowi rekord w teście porównawczym Llama 2 firmy MLPerf. Wyniki GPU H200 obejmują do 14% wzrostu w porównaniu z niestandardowym rozwiązaniem termicznym. To jeden z przykładów innowacji wykraczających poza standardowe chłodzenie powietrzem, które konstruktorzy systemów stosują w swoich projektach NVIDIA MGX, aby przenieść wydajność procesorów graficznych Hopper na nowy poziom.

Zwiększenie pamięci dla procesorów graficznych NVIDIA Hopper

NVIDIA dostarcza dziś procesory graficzne H200. Wkrótce będą dostępne u prawie 20 wiodących producentów systemów i dostawców usług w chmurze. Procesory graficzne H200 zawierają 141 GB pamięci HBM3e działającej z szybkością 4,8 TB/s. To o 76% więcej pamięci działającej 43% szybciej w porównaniu do procesorów graficznych H100. Akceleratory te podłącza się do tych samych płyt i systemów i korzystają z tego samego oprogramowania, co procesory graficzne H100. Dzięki pamięci HBM3e pojedynczy procesor graficzny H200 może obsłużyć cały model Llama 2 70B z najwyższą przepustowością, upraszczając i przyspieszając wnioskowanie.

GH200 oferuje jeszcze więcej pamięci
Jeszcze więcej pamięci — aż do 624 GB szybkiej pamięci, w tym 144 GB pamięci HBM3e — znajduje się w Superchipy NVIDIA GH200, które łączą w jednym module procesor graficzny o architekturze Hopper i energooszczędny procesor NVIDIA Grace. Akceleratory NVIDIA jako pierwsze wykorzystują technologię pamięci HBM3e. Dzięki przepustowości pamięci wynoszącej prawie 5 TB/s, GH200 Superchips zapewniał wyjątkową wydajność, także w testach MLPerf intensywnie korzystających z pamięci, takich jak systemy rekomendujące.

Zamiatanie każdego testu MLPerf

W przeliczeniu na akcelerator procesory graficzne Hopper przeszły każdy test wnioskowania AI w ostatniej rundzie branżowych testów porównawczych MLPerf. Testy porównawcze obejmują najpopularniejsze obecnie obciążenia i scenariusze sztucznej inteligencji, w tym generatywną sztuczną inteligencję, systemy rekomendacji, przetwarzanie języka naturalnego, mowę i widzenie komputerowe. NVIDIA była jedyną firmą, która przedstawiła wyniki dla każdego obciążenia w ostatniej rundzie i w każdej rundzie, odkąd w październiku 2020 r. rozpoczęły się testy porównawcze wnioskowania dla centrów danych MLPerf.

Reklama

Ciągły wzrost wydajności przekłada się na niższe koszty wnioskowania, które stanowi dużą i rosnącą część codziennej pracy milionów procesorów graficznych NVIDIA wdrożonych na całym świecie.

Postęp, co jest możliwe
Przesuwając granice tego, co możliwe, NVIDIA zademonstrowała trzy innowacyjne techniki w specjalnej sekcji testów porównawczych zwanej dywizją otwartą, stworzonej do testowania zaawansowanych metod sztucznej inteligencji. Inżynierowie firmy NVIDIA zastosowali technikę zwaną rzadkością strukturalną — sposób na ograniczenie obliczeń, wprowadzony po raz pierwszy w procesorach graficznych NVIDIA A100 Tensor Core — aby zapewnić do 33% przyspieszenia wnioskowania w Llama 2.

Drugi test podziału otwartego wykazał przyspieszenie wnioskowania nawet o 40% przy użyciu przycinania, czyli sposobu na uproszczenie modelu sztucznej inteligencji – w tym przypadku LLM – w celu zwiększenia przepustowości wnioskowania. Wreszcie optymalizacja o nazwie DeepCache zmniejszyła liczbę obliczeń wymaganych do wnioskowania w modelu Stable Diffusion XL, zwiększając wydajność aż o 74%. Wszystkie te wyniki uzyskano na procesorach graficznych NVIDIA H100 Tensor Core.

Zaufane źródło dla użytkowników
Testy MLPerf są przejrzyste i obiektywne, dzięki czemu użytkownicy mogą polegać na wynikach przy podejmowaniu świadomych decyzji zakupowych. Partnerzy NVIDIA uczestniczą w MLPerf, ponieważ wiedzą, że jest to cenne narzędzie dla klientów oceniających systemy i usługi AI. Partnerami, którzy w tej rundzie przesyłali wyniki na platformie NVIDIA AI, byli ASUS, Cisco, Dell Technologies, Fujitsu, GIGABYTE, Google, Hewlett Packard Enterprise, Lenovo, Microsoft Azure, Oracle, QCT, Supermicro, VMware (niedawno przejęte przez Broadcom) i Wiwynn.

Całe oprogramowanie NVIDIA użyte w testach jest dostępne w repozytorium MLPerf. Te optymalizacje są stale umieszczane w kontenerach dostępnych w NGC, centrum oprogramowania NVIDIA dla aplikacji GPU, a także NVIDIA AI Enterprise — bezpiecznej, obsługiwanej platformie obejmującej mikrousługi wnioskowania NIM.

Następna wielka rzecz
Przypadki użycia, rozmiary modeli i zbiory danych dla generatywnej sztucznej inteligencji stale się poszerzają. Dlatego MLPerf wciąż ewoluuje, dodając testy w świecie rzeczywistym z popularnymi modelami, takimi jak Llama 2 70B i Stable Diffusion XL.

Dotrzymując kroku eksplozji rozmiarów modeli LLM, założyciel i dyrektor generalny firmy NVIDIA, Jensen Huang, ogłosił w zeszłym tygodniu na konferencji GTC, że procesory graficzne oparte na architekturze NVIDIA Blackwell zapewnią nowy poziom wydajności wymagany w wielobiliardowych parametrach modeli AI.

Wnioskowanie w przypadku dużych modeli językowych jest trudne i wymaga zarówno specjalistycznej wiedzy, jak i architektury pełnego stosu, którą firma NVIDIA zademonstrowała w programie MLPerf z procesorami graficznymi o architekturze Hopper i TensorRT-LLM. Jeszcze wiele przed nami.

Dowiedz się więcej o Testy porównawcze MLPerf i szczegóły techniczne tej rundy wnioskowania.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Unijna ustawa o sztucznej inteligencji nie chroni praworządności i przestrzeni obywatelskiej

Unia Europejska (UE) Ustawa o sztucznej inteligencji (AI). Jak wynika z oceny Europejskiego Centrum Prawa Non-Profit (ECNL), „nie chroni skutecznie praworządności i przestrzeni...

57-calowy Predator Z57 firmy Acer trafia do sprzedaży detalicznej

Dla tych, którzy nie są zadowoleni z rozdzielczości większości ultraszerokokątnych wyświetlaczy dostępnych na rynku, nowy dodatek firmy Acer do linii Predator powinien zadowolić...

Emulator iPhone’a „iGBA” został usunięty z App Store, ale nie jesteśmy pewni dlaczego

W weekend pierwszy emulator gier na konsolę przenośną trafić do App Storepo złagodzeniu wytycznych dotyczących recenzji App Store tydzień wcześniej. Przewiń do przodu o...
Advertisment