Akceleratory AMD MI300X są konkurencyjne w porównaniu z NVIDIA H100 i Crunch MLPerf Inference v4.1



Konsorcjum MLCommons opublikowało w środę wyniki testów porównawczych MLPerf Inference v4.1 dla popularnych akceleratorów wnioskowania AI dostępnych na rynku, wśród marek, które obejmują NVIDIA, AMD i Intel. Akceleratory Instinct MI300X firmy AMD okazały się konkurencyjne dla procesorów graficznych AI „Hopper” serii H100 firmy NVIDIA. AMD wykorzystało również okazję, aby zaprezentować rodzaj wzrostu wydajności wnioskowania AI, jakiego klienci mogą oczekiwać od swoich procesorów serwerowych EPYC „Turin” nowej generacji, napędzających te maszyny MI300X. „Turin” zawiera rdzenie procesora „Zen 5”, wyposażone w 512-bitową ścieżkę danych FPU i ulepszoną wydajność w 512-bitowych zestawach instrukcji SIMD istotnych dla AI, takich jak AVX-512 i VNNI. Z drugiej strony MI300X opiera się na mocnych stronach swojego podsystemu pamięci, obsłudze formatu danych FP8 i wydajnym zarządzaniu pamięcią podręczną KV.

Test porównawczy MLPerf Inference v4.1 skupił się na modelu LLaMA2-70B o 70 miliardach parametrów. Zgłoszenia AMD obejmowały maszyny z Instinct MI300X, zasilane przez obecny EPYC „Genoa” (Zen 4) i EPYC nowej generacji „Turin” (Zen 5). Procesory graficzne są wspierane przez stos oprogramowania open source ROCm firmy AMD. Test porównawczy oceniał wydajność wnioskowania przy użyciu 24 576 próbek pytań i odpowiedzi z zestawu danych OpenORCA, przy czym każda próbka zawierała do 1024 tokenów wejściowych i wyjściowych. Oceniono dwa scenariusze: scenariusz offline, skupiający się na przetwarzaniu wsadowym w celu maksymalizacji przepustowości w tokenach na sekundę, oraz scenariusz serwera, który symuluje zapytania w czasie rzeczywistym ze ścisłymi limitami opóźnienia (TTFT ≤ 2 sekundy, TPOT ≤ 200 ms). Pozwala to zobaczyć wytrzymałość układu zarówno w zapytaniach o wysokiej przepustowości, jak i o niskim opóźnieniu.

Pierwsze zgłoszenie AMD (4.1-0002) przedstawia serwer z procesorami 2P EPYC 9374F „Genoa” i 8 akceleratorami Instinct MI300X. Tutaj maszyna osiąga 21 028 tokenów/s w teście serwera, w porównaniu do 21 605 tokenów/s uzyskanych przez maszynę NVIDIA łączącą 8x NVIDIA DGX100 z procesorem Xeon. W teście offline maszyna AMD osiąga 23 514 tokenów/s w porównaniu do 24 525 tokenów/s maszyny NVIDIA+Intel. AMD przetestowało 8x MI300X z parą procesorów EPYC „Turin” (Zen 5) o porównywalnej liczbie rdzeni i uzyskało lepsze wyniki od NVIDIA, osiągając 22 021 tokenów serwera/s i 24 110 tokenów offline/s. AMD twierdzi, że osiąga niemal liniową skalę wydajności między 1x MI300X a 8x MI300X, co świadczy o doskonałych umiejętnościach platformy AMD w zakresie zarządzania pamięcią i wejściami/wyjściami.

Wyniki AMD dobrze wróżą przyszłym wersjom modelu, takim jak LLaMA 3.1 z jego gigantycznymi 405 miliardami parametrów. Tutaj 192 GB pamięci HBM3 z przepustowością pamięci 5,3 TB/s okazuje się naprawdę przydatne. Dzięki temu AMD nawiązało współpracę z Meta, aby zasilać LLaMa 3.1 405B. 8-krotny moduł MI300X zawiera 1,5 TB pamięci z przepustowością pamięci ponad 42 TB/s, a Infinity Fabric obsługuje łączność. Pojedynczy serwer jest w stanie pomieścić cały model LLaMa 3.1 405B przy użyciu typu danych FP16.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Oto, o ile większe są modele iPhone’a 16 Pro od iPhone’a 16

Apple miał dzisiaj dużo ogłoszeńale najważniejsze z nich to iPhone 16 Pro modele i iPhone'a 16. Chociaż linia iPhone'ów Apple'a zwykle ma podobne...

Apple wycofuje iPhone’a 13 po premierze iPhone’a 16

Po wprowadzeniu na rynek iPhone'a 16 firma Apple wycofała ze sprzedaży jeden z najstarszych modeli iPhone'a, znajdujący się na końcu oferty, wyłączając iPhone'a...

Apple Watch Series 10: cena, data premiery i jak zamówić w przedsprzedaży

iPhone 16 był w centrum uwagi podczas Wydarzenie Apple „It's Glowtime” w poniedziałekale nie był to jedyny nowy gadżet, który zadebiutował. Apple wprowadził...
Advertisment