Akcelerator Intel Gaudi2 pokonuje NVIDIA H100 w Stable Diffusion 3 o 55%


Stability AI, twórcy popularnego modelu generującego sztuczną inteligencję Stable Diffusion, przeprowadzili kilka własnych testów wydajności dla Stable Diffusion 3 przy użyciu popularnych procesorów graficznych AI dla centrów danych, w tym NVIDIA H100 „Hopper” 80 GB, A100 „Ampere” 80 GB oraz akcelerator Intel Gaudi2 96 GB. W przeciwieństwie do H100, który jest superskalarnym procesorem graficznym z rdzeniem CUDA + Tensor; Gaudi2 został zaprojektowany specjalnie w celu przyspieszenia generatywnej sztucznej inteligencji i LLM. Stability AI opublikowała swoje wyniki w poście na blogu, z którego wynika, że ​​procesor Intel Gaudi2 96 GB charakteryzuje się około 56% wyższą wydajnością niż H100 80 GB.

Dzięki 2 węzłam, 16 akceleratorom i stałej wielkości partii wynoszącej 16 na akcelerator (w sumie 256) macierz Intel Gaudi2 jest w stanie wygenerować 927 obrazów na sekundę w porównaniu do 595 obrazów na sekundę w przypadku macierzy H100 i 381 obrazów na sekundę w przypadku macierzy H100. tablicę A100, utrzymując stałą liczbę akceleratorów i węzłów. Po skalowaniu w górę do 32 węzłów i 256 akceleratorów, czyli wielkości partii wynoszącej 16 na akcelerator (całkowity rozmiar partii wynoszącej 4096), tablica Gaudi2 publikuje 12 654 obrazów na sekundę; lub 49,4 obrazów na sekundę na urządzenie; w porównaniu do 3992 obrazów na sekundę lub 15,6 obrazów na sekundę na urządzenie w przypadku macierzy A100 „Ampere” starszej generacji.

Jest co do tego duże zastrzeżenie, a mianowicie wyniki uzyskano przy użyciu podstawowego PyTorch; Stability AI przyznaje, że dzięki optymalizacji TensorRT chipy A100 generują obrazy nawet o 40% szybciej niż Gaudi2. „W testach wnioskowania z modelem parametrów Stable Diffusion 3 8B, chipy Gaudi2 oferują prędkość wnioskowania podobną do chipów Nvidia A100 przy użyciu podstawowego PyTorch. Jednak dzięki optymalizacji TensorRT chipy A100 generują obrazy o 40% szybciej niż Gaudi2. Przewidujemy, że dzięki dalszej optymalizacji , Gaudi2 wkrótce przewyższy A100 w tym modelu. We wcześniejszych testach naszego modelu SDXL z podstawowym PyTorch, Gaudi2 generuje obraz 1024×1024 w 30 krokach w 3,2 sekundy, w porównaniu do 3,6 sekundy dla PyTorch na A100 i 2,7 sekundy dla generacji z TensorRT na A100.” Stabilność AI uważa, że ​​szybsze połączenia międzysystemowe i większa pamięć 96 GB sprawiają, że chipy Intela są konkurencyjne.

Stability AI planuje wdrożyć Gaudi2 w Stability Cloud.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Meta CTO mówi, że firma pracuje nad „złapaniem” wycieków

Podczas pytań i odpowiedzi z pracownikami na początku tego tygodnia jeden z najważniejszych menedżerów Meta dało złowieszcze ostrzeżenie.Po lamentowaniu „ogromnej liczby wycieków” z...

PlayStation Network spadła | The Verge

PlayStation Network (PSN) ma pewne poważne problemy od piątku wieczorem. Według Strona statusu PSN SonyZarządzanie kontami, gry i społecznościowe, PlayStation Video, PlayStation Store...

Kalendarz Google usunął wydarzenia, takie jak Pride i BHM, ponieważ jego lista wakacyjna nie była „zrównoważona”

Niektórzy użytkownicy kalendarza Google gniewnie dzwonią do firmy po zauważeniu, że niektóre zdarzenia, takie jak Miesiąc Pride, nie są już domyślnie wyróżnione. Miesiąc...
Advertisment