Procesor serwerowy NVIDIA CG100 „Grace” przetestowany przez naukowców



Centrum Superkomputerowe w Barcelonie (BSC) i Uniwersytet Stanowy Nowego Jorku (kampusy w Stony Brook i Buffalo) przetestowały stosunkowo nowe procesory NVIDIA Superchip CG100 „Grace”. w porównaniu z kilkoma konkurencyjnymi produktami w „szerokiej gamie testów porównawczych HPC i AI”. Materiały marketingowe Team Green skupiały się głównie na całym pakiecie „Grace Hopper” GH200 — interesujące jest zatem obserwowanie, jak instytuty techniczne koncentrują się na „pierwszym prawdziwym” procesorze serwerowym firmy (opartym na ARM), a nie na zawsze popularnym aspekcie GPU. Artykuł Next Platform podsumował wewnętrzną budowę chipa: „Procesor Grace (NVIDIA) ma stosunkowo dużą liczbę rdzeni i stosunkowo niski ślad cieplny oraz jest wyposażony w banki pamięci DDR5 o niskim poborze mocy (LPDDR5) — takie, jakie są używane w laptopach, ale wyposażone w korekcję błędów być klasy serwerowej — o wystarczającej pojemności, aby nadawał się do systemów HPC, które obecnie zazwyczaj mają 256 GB lub 512 GB na węzeł, a czasami mniej”.

Wyniki testów porównawczych ogłoszono podczas zeszłotygodniowej konferencji HPC Asia 2024 (w Nagoi w Japonii) — Barcelona Supercomputing Center (BSC) i Uniwersytet Stanowy Nowego Jorku również przesłały swoje ustalenia do Biblioteki Cyfrowej ACM (link #1 & #2). System MareNostrum 5 firmy BSC zawiera eksperymentalną część klastra — składającą się z superchipów NVIDIA Grace-Grace i Grace-Hopper. Dużo o tym ostatnim słyszeliśmy (w komunikatach prasowych), ale pierwsza koncepcja jest nowatorska – jak opisano w The Next Platform: „Umieść dwa procesory Grace w superchipie Grace-Grace, ściśle powiązanym pakiecie wykorzystującym chip-to NVLink -chipowe połączenia, które zapewniają spójność pamięci pomiędzy bankami pamięci LPDDR5 i zużywają tylko około 500 W, co staje się bardzo interesujące dla tłumu HPC. Daje to w sumie 144 rdzenie Arm Neoverse „Demeter” V2 z architekturą Armv9 i 1 TB pamięci fizycznej przy szczytowej teoretycznej przepustowości 1,1 TB/s. Z jakiegoś powodu, prawdopodobnie związanego z wydajnością pamięci LPDDR5, faktycznie dostępne jest tylko 960 GB tej pojemności pamięci i tylko 1 TB/s tej przepustowości pamięci.

Starszy superkomputer MareNostrum 4 firmy BSC opiera się na „węzłach składających się z pary 24-rdzeniowych procesorów Skylake-X Xeon SP-8160 Platinum pracujących z częstotliwością 2,1 GHz”. Prawie siedmioletni system oparty na Team Blue został pobity przez wzmocniony NVIDIA MareNostrum 5 — ten ostatni uzyskał najgorsze wyniki w zakresie wydajności, które nadal były o 67% szybsze, podczas gdy najlepsze wskazano na 4,49-krotną przewagę wydajności. Instytut Upstate New York wystawił szerszą gamę konkurencyjnych rozwiązań w porównaniu z własną konfiguracją NVIDIA — w konfiguracjach „Grace-Grace” (para CPU-CPU) i „Grace-Hopper” (para CPU-GPU). W konkursie brały udział: Intel Sapphire Rapids i Ice Lake, AMD Milan, a także oparte na architekturze ARM procesory Amazon Graviton 3 i Fujitsu A64FX. Tom’s Hardware sprawdził dane porównawcze SUNY: „Grace Superchip z łatwością pokonuje Graviton 3, A64FX, 80-rdzeniową konfigurację Ice Lake, a nawet 128-rdzeniową konfigurację Milan we wszystkich testach porównawczych. Jednak serwer Sapphire Rapids z dwoma 48-rdzeniowymi procesorami -core Xeon Max 9468 przerwał passę Grace.” Kontynuowali: „W meczu przeciwko Sapphire Rapids w trybie HBM Grace wygrała tylko w trzech z ośmiu testów – chociaż w pięciu testach była w stanie uzyskać lepsze wyniki w trybie DDR5. To zaskakująco zróżnicowane torba dla Nvidii, biorąc pod uwagę, że Grace ma o 50% więcej rdzeni i wykorzystuje bardziej zaawansowany węzeł 4 nm firmy TSMC zamiast starzejącego się procesu Intel 7 (wcześniej 10 nm). Jednak nie jest to całkowicie poza lewym polem: Sapphire Rapids pobiło także chipy AMD EPYC Genoa o miejsce w instancji Azure z obsługą MI300X, co wskazuje, że pomimo niedociągnięć Sapphire Rapid, wciąż ma on mnóstwo potencjału do obliczeń HPC… Z drugiej strony, NVIDIA może odnieść miażdżące zwycięstwo w wydajności.Grace Superchip jest oceniany jako 500 watów, podczas gdy Xeon Max 9468 ma moc znamionową 350 watów, co oznacza, że ​​dwa będą miały TDP na poziomie 700 watów. W artykule nie opisano szczegółowo zużycia energii przez żaden z chipów, ale jeśli założymy, że każdy chip działał przy swoim TDP, porównanie będzie bardzo korzystne dla firmy NVIDIA.

The Next Platform wierzy, że procesor serwerowy CG100 firmy Team Green jest naprawdę wspierany przez jego wbudowanego sąsiada: „dowolny procesor w połączeniu z tym samym procesorem graficznym Hopper prawdopodobnie również by sobie poradził. Na jednostce Grace-Grace wyposażonej wyłącznie w procesor wydajność Gromacs jest prawie tak samo wysoka jako para procesorów z serii Xeon Max „Sapphire Rapids”. Warto zauważyć, że pamięć HBM w tym chipie nie jest zbyt pomocna dla Gromaców. Hmmmm. W każdym razie jest to materiał do przemyśleń na temat obciążeń procesora Grace i HPC. “



Source link

Advertisment

Więcej

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Advertisment

Podobne

Advertisment

Najnowsze

Alan Cumming w momencie drugiego sezonu Zdrajców, który zaskoczył go najbardziej

Jeśli myślisz, że Alan Cumming, gospodarz amerykańskiej wersji Zdrajcy, wywołuje wrażenie „faceta, który kogoś zabił”, będzie się śmiał – wychwytujesz to,...

Aplikacja Threads zapewnia szybki dostęp do aparatu i opcję zapisywania wersji roboczych

Niedawno o tym pisaliśmy Wątkiplatforma mikroblogowa Meta, wdrażamy funkcję Trendy. Chociaż jest to dostępne tylko dla niektórych użytkowników w USA, użytkownicy na...

Concept przewiduje, że Apple może wprowadzić nowe funkcje do systemu VisionOS 2

Chociaż Vision Pro pojawił się w sklepach zaledwie kilka tygodni temu, Apple ogłosiło nowe urządzenie w czerwcu ubiegłego roku na WWDC – i...
Advertisment