Test porównawczy MLPerf Inference v4.1 skupił się na modelu LLaMA2-70B o 70 miliardach parametrów. Zgłoszenia AMD obejmowały maszyny z Instinct MI300X, zasilane przez obecny EPYC „Genoa” (Zen 4) i EPYC nowej generacji „Turin” (Zen 5). Procesory graficzne są wspierane przez stos oprogramowania open source ROCm firmy AMD. Test porównawczy oceniał wydajność wnioskowania przy użyciu 24 576 próbek pytań i odpowiedzi z zestawu danych OpenORCA, przy czym każda próbka zawierała do 1024 tokenów wejściowych i wyjściowych. Oceniono dwa scenariusze: scenariusz offline, skupiający się na przetwarzaniu wsadowym w celu maksymalizacji przepustowości w tokenach na sekundę, oraz scenariusz serwera, który symuluje zapytania w czasie rzeczywistym ze ścisłymi limitami opóźnienia (TTFT ≤ 2 sekundy, TPOT ≤ 200 ms). Pozwala to zobaczyć wytrzymałość układu zarówno w zapytaniach o wysokiej przepustowości, jak i o niskim opóźnieniu.
Pierwsze zgłoszenie AMD (4.1-0002) przedstawia serwer z procesorami 2P EPYC 9374F „Genoa” i 8 akceleratorami Instinct MI300X. Tutaj maszyna osiąga 21 028 tokenów/s w teście serwera, w porównaniu do 21 605 tokenów/s uzyskanych przez maszynę NVIDIA łączącą 8x NVIDIA DGX100 z procesorem Xeon. W teście offline maszyna AMD osiąga 23 514 tokenów/s w porównaniu do 24 525 tokenów/s maszyny NVIDIA+Intel. AMD przetestowało 8x MI300X z parą procesorów EPYC „Turin” (Zen 5) o porównywalnej liczbie rdzeni i uzyskało lepsze wyniki od NVIDIA, osiągając 22 021 tokenów serwera/s i 24 110 tokenów offline/s. AMD twierdzi, że osiąga niemal liniową skalę wydajności między 1x MI300X a 8x MI300X, co świadczy o doskonałych umiejętnościach platformy AMD w zakresie zarządzania pamięcią i wejściami/wyjściami.
Wyniki AMD dobrze wróżą przyszłym wersjom modelu, takim jak LLaMA 3.1 z jego gigantycznymi 405 miliardami parametrów. Tutaj 192 GB pamięci HBM3 z przepustowością pamięci 5,3 TB/s okazuje się naprawdę przydatne. Dzięki temu AMD nawiązało współpracę z Meta, aby zasilać LLaMa 3.1 405B. 8-krotny moduł MI300X zawiera 1,5 TB pamięci z przepustowością pamięci ponad 42 TB/s, a Infinity Fabric obsługuje łączność. Pojedynczy serwer jest w stanie pomieścić cały model LLaMa 3.1 405B przy użyciu typu danych FP16.