Charles Fan, dyrektor generalny i współzałożyciel MemVerge, podkreślił kluczowe znaczenie przezwyciężenia wąskiego gardła w zakresie wydajności HBM. „Opłacalne skalowanie wydajności LLM oznacza dostarczanie danych do procesorów graficznych” – stwierdził Fan. „Nasze demo na GTC pokazuje, że pule wielopoziomowej pamięci nie tylko zwiększają wydajność, ale także maksymalizują wykorzystanie cennych zasobów procesora graficznego.”
Demonstracja przeprowadzona przez inżynierów z firm MemVerge i Micron obejmowała wysokoprzepustowy silnik generacji FlexGen i wielkojęzykowy model OPT-66B działający na serwerze Supermicro Petascale wyposażonym w procesor AMD Genoa, procesor graficzny Nvidia A10, moduły DIMM Micron DDR5-4800, CZ120 CXL moduły pamięci i inteligentne oprogramowanie do tworzenia warstw MemVerge Memory Machine X.
Wyniki demonstracji były imponujące. W teście FlexGen, wykorzystującym pamięć warstwową, zadania wykonywano w czasie krótszym o ponad połowę w porównaniu z konwencjonalnymi metodami przechowywania NVMe. Jednocześnie wykorzystanie procesora graficznego wzrosło z 51,8% do 91,8% dzięki przejrzystemu zarządzaniu warstwami danych w modułach DIMM i CXL, które umożliwia oprogramowanie MemVerge Memory Machine X.
Ta współpraca pomiędzy firmami MemVerge, Micron i Supermicro stanowi znaczący kamień milowy w zwiększaniu możliwości obciążeń AI, umożliwiając organizacjom osiągnięcie niespotykanego dotąd poziomu wydajności, efektywności i czasu potrzebnego na wgląd. Wykorzystując moc pamięci CXL i inteligentne tworzenie warstw, firmy mogą odblokować nowe możliwości w zakresie innowacji i przyspieszyć swoją drogę do sukcesu opartego na sztucznej inteligencji.
„Dzięki naszej współpracy z MemVerge firma Micron jest w stanie zademonstrować istotne zalety modułów pamięci CXL w zakresie poprawy efektywnej przepustowości procesora graficznego dla aplikacji AI, co skutkuje skróceniem czasu uzyskiwania informacji dla klientów. Innowacje firmy Micron w całym portfolio pamięci zapewniają obliczenia z niezbędną pojemnością pamięci i przepustowość umożliwiającą skalowanie przypadków użycia sztucznej inteligencji od chmury po brzegi” – powiedział Raj Narasimhan, starszy wiceprezes i dyrektor generalny jednostki biznesowej Compute and Networking firmy Micron.