Blackwell ma ogromne implikacje dla obciążeń AI, a jego możliwości technologiczne mogą również pomóc w dokonywaniu odkryć we wszystkich typach naukowych zastosowań obliczeniowych, w tym w tradycyjnej symulacji numerycznej. Obniżając koszty energii, przyspieszone przetwarzanie i sztuczna inteligencja przyczyniają się do zrównoważonego przetwarzania. Wiele naukowych zastosowań obliczeniowych już na tym skorzystało. Symulację pogody można przeprowadzić przy 200 razy niższym koszcie i 300 razy mniejszym zużyciu energii, podczas gdy symulacje cyfrowych bliźniaków charakteryzują się 65 razy niższym kosztem i 58 razy mniejszym zużyciem energii w porównaniu z tradycyjnymi systemami opartymi na procesorach i innymi.
Mnożenie naukowych symulacji obliczeniowych za pomocą Blackwell
Obliczenia naukowe i symulacje oparte na fizyce często opierają się na tak zwanych formatach podwójnej precyzji lub FP64 (zmiennoprzecinkowym) przy rozwiązywaniu problemów. Procesory graficzne Blackwell zapewniają o 30% większą wydajność FP64 i FP32 FMA (fusion multiply-add) niż Hopper.
Symulacje oparte na fizyce mają kluczowe znaczenie w projektowaniu i rozwoju produktów. Od samolotów i pociągów po mosty, chipy krzemowe i farmaceutyki — testowanie i ulepszanie produktów w symulacji pozwala badaczom i programistom zaoszczędzić miliardy dolarów.
Obecnie układy scalone specyficzne dla aplikacji (ASIC) są projektowane niemal wyłącznie na procesorach w ramach długiego i złożonego przepływu pracy, obejmującego analizę analogową w celu identyfikacji napięć i prądów.
Ale to się zmienia. Symulator Cadence SpectreX jest jednym z przykładów narzędzia do projektowania obwodów analogowych. Przewiduje się, że symulacje obwodów SpectreX będą działać 13 razy szybciej na procesorze GB200 Grace Blackwell Superchip, który łączy procesory graficzne Blackwell i procesory Grace, niż na tradycyjnym procesorze.
Kluczowym narzędziem stała się także przyspieszana przez GPU obliczeniowa dynamika płynów (CFD). Inżynierowie i projektanci sprzętu używają go do przewidywania zachowania projektów. Cadence Fidelity uruchamia symulacje CFD, które według przewidywań będą działać aż 22 razy szybciej na systemach GB200 niż na tradycyjnych systemach wyposażonych w procesor. Dzięki równoległej skalowalności i 30 TB pamięci na szafę GB200 NVL72 możliwe jest przechwytywanie szczegółów przepływu jak nigdy dotąd.
W innym zastosowaniu oprogramowanie cyfrowego bliźniaka Cadence Reality może zostać wykorzystane do stworzenia wirtualnej repliki fizycznego centrum danych, obejmującego wszystkie jego komponenty – serwery, systemy chłodzenia i zasilacze. Taki wirtualny model pozwala inżynierom testować różne konfiguracje i scenariusze przed wdrożeniem ich w świecie rzeczywistym, oszczędzając czas i koszty.
Magia Cadence Reality dzieje się dzięki algorytmom opartym na fizyce, które mogą symulować wpływ ciepła, przepływu powietrza i zużycia energii na centra danych. Pomaga to inżynierom i operatorom centrów danych w skuteczniejszym zarządzaniu wydajnością, przewidywaniu potencjalnych problemów operacyjnych i podejmowaniu świadomych decyzji w celu optymalizacji układu i działania centrum danych w celu poprawy wydajności i wykorzystania mocy obliczeniowej. Przewiduje się, że w przypadku procesorów graficznych Blackwell symulacje te będą przebiegać do 30 razy szybciej niż w przypadku procesorów, zapewniając szybsze ramy czasowe i wyższą efektywność energetyczną.
Sztuczna inteligencja dla obliczeń naukowych
Nowe akceleratory i sieci Blackwell zapewnią skokowy wzrost wydajności w przypadku zaawansowanych symulacji.
NVIDIA GB200 rozpoczyna nową erę obliczeń o wysokiej wydajności (HPC). Jego architektura obejmuje silnik transformatorowy drugiej generacji zoptymalizowany pod kątem przyspieszania obciążeń wnioskowania w LLM.
Zapewnia to 30-krotne przyspieszenie w zastosowaniach wymagających dużej ilości zasobów, takich jak model GPT-MoE o 1,8 bilionach parametrów (generatywna, wstępnie przeszkolona mieszanka ekspertów) w porównaniu z generacją H100, otwierając nowe możliwości dla HPC. Umożliwiając LLM przetwarzanie i odszyfrowywanie ogromnych ilości danych naukowych, aplikacje HPC mogą szybciej uzyskać cenne informacje, które mogą przyspieszyć odkrycia naukowe.
Sandia National Laboratories buduje drugiego pilota LLM do programowania równoległego. Tradycyjna sztuczna inteligencja może wydajnie generować podstawowy kod obliczeniowy szeregowy, ale jeśli chodzi o kod obliczeniowy równoległy dla aplikacji HPC, LLM może zawieść. Badacze z Sandii muszą zmierzyć się z tym problemem w ramach ambitnego projektu — automatycznego generowania kodu równoległego w Kokkos, specjalistycznym języku programowania zaprojektowanym przez wiele laboratoriów krajowych do wykonywania zadań na dziesiątkach tysięcy procesorów w najpotężniejszych superkomputerach na świecie.
Sandia korzysta z techniki sztucznej inteligencji znanej jako generowanie wspomagane wyszukiwaniem (RAG), która łączy możliwości wyszukiwania informacji z modelami generowania języka. Zespół tworzy bazę danych Kokkos i integruje ją z modelami AI za pomocą RAG.
Wstępne wyniki są obiecujące. Różne podejścia RAG opracowane przez Sandię zademonstrowały autonomicznie wygenerowany kod Kokkos do zastosowań obliczeń równoległych. Pokonując przeszkody w równoległym generowaniu kodu w oparciu o sztuczną inteligencję, Sandia zamierza odblokować nowe możliwości w zakresie HPC w wiodących obiektach superkomputerowych na całym świecie. Inne przykłady obejmują badania nad odnawialnymi źródłami energii, naukę o klimacie i odkrywanie leków.
Postęp w dziedzinie obliczeń kwantowych
Obliczenia kwantowe umożliwiają podróż do wehikułu czasu w zakresie energii termojądrowej, badań klimatycznych, odkrywania leków i wielu innych dziedzin. Dlatego badacze ciężko pracują, symulując przyszłe komputery kwantowe w systemach i oprogramowaniu opartym na procesorach graficznych NVIDIA, aby opracowywać i testować algorytmy kwantowe szybciej niż kiedykolwiek.
Platforma NVIDIA CUDA-Q umożliwia zarówno symulację komputerów kwantowych, jak i tworzenie aplikacji hybrydowych przy użyciu ujednoliconego modelu programowania dla współpracujących ze sobą procesorów, procesorów graficznych i QPU (jednostek przetwarzania kwantowego).
CUDA-Q przyspiesza symulacje procesów chemicznych w firmie BASF, fizyki wysokich energii i jądrowej w firmie Stony Brook oraz chemii kwantowej w firmie NERSC.
Architektura NVIDIA Blackwell pomoże wynieść symulacje kwantowe na nowy poziom. Wykorzystanie najnowszej technologii połączeń wielowęzłowych NVIDIA NVLink pomaga w szybszym przesyłaniu danych, co zapewnia korzyści w postaci przyspieszenia symulacji kwantowych.
Przyspieszenie analizy danych w celu osiągnięcia przełomów naukowych
Przetwarzanie danych za pomocą RAPIDS jest popularne w obliczeniach naukowych. Blackwell wprowadza sprzętowy silnik dekompresji do dekompresji skompresowanych danych i przyspieszenia analiz w RAPIDS.
Silnik dekompresji zapewnia poprawę wydajności do 800 GB/s i umożliwia Grace Blackwell działanie 18 razy szybciej niż procesory w Sapphire Rapids i 6 razy szybciej niż procesory graficzne NVIDIA H100 Tensor Core w testach porównawczych zapytań.
Błyskawiczny transfer danych dzięki dużej przepustowości pamięci 8 TB/s i szybkiemu połączeniu międzysystemowemu NVLink Chip-to-Chip (C2C) procesora Grace CPU przyspiesza cały proces zapytań do bazy danych. Zapewniając najwyższą wydajność w zakresie analizy danych i zastosowań związanych z nauką o danych, Blackwell przyspiesza wgląd w dane i zmniejsza koszty.
Ekstremalna wydajność w zastosowaniach naukowych dzięki obsłudze sieci NVIDIA
Platforma sieciowa NVIDIA Quantum-X800 InfiniBand oferuje najwyższą przepustowość dla infrastruktury obliczeń naukowych.
Zawiera przełączniki NVIDIA Quantum Q3400 i Q3200 oraz kartę NVIDIA ConnectX-8 SuperNIC, które łącznie zapewniają dwukrotnie większą przepustowość w porównaniu z poprzednią generacją. Platforma Q3400 oferuje 5 razy większą przepustowość i 14,4 Tflopów mocy obliczeniowej w sieci dzięki skalowalnemu protokołowi hierarchicznej agregacji i redukcji firmy NVIDIA (SHARPv4), zapewniając 9-krotny wzrost w porównaniu z poprzednią generacją.
Skok wydajności i energooszczędności przekłada się na znaczne skrócenie czasu realizacji zadań i zużycia energii w zastosowaniach naukowych.