Akcelerator Intel Gaudi2 pokonuje NVIDIA H100 w Stable Diffusion 3 o 55%


Stability AI, twórcy popularnego modelu generującego sztuczną inteligencję Stable Diffusion, przeprowadzili kilka własnych testów wydajności dla Stable Diffusion 3 przy użyciu popularnych procesorów graficznych AI dla centrów danych, w tym NVIDIA H100 „Hopper” 80 GB, A100 „Ampere” 80 GB oraz akcelerator Intel Gaudi2 96 GB. W przeciwieństwie do H100, który jest superskalarnym procesorem graficznym z rdzeniem CUDA + Tensor; Gaudi2 został zaprojektowany specjalnie w celu przyspieszenia generatywnej sztucznej inteligencji i LLM. Stability AI opublikowała swoje wyniki w poście na blogu, z którego wynika, że ​​procesor Intel Gaudi2 96 GB charakteryzuje się około 56% wyższą wydajnością niż H100 80 GB.

Dzięki 2 węzłam, 16 akceleratorom i stałej wielkości partii wynoszącej 16 na akcelerator (w sumie 256) macierz Intel Gaudi2 jest w stanie wygenerować 927 obrazów na sekundę w porównaniu do 595 obrazów na sekundę w przypadku macierzy H100 i 381 obrazów na sekundę w przypadku macierzy H100. tablicę A100, utrzymując stałą liczbę akceleratorów i węzłów. Po skalowaniu w górę do 32 węzłów i 256 akceleratorów, czyli wielkości partii wynoszącej 16 na akcelerator (całkowity rozmiar partii wynoszącej 4096), tablica Gaudi2 publikuje 12 654 obrazów na sekundę; lub 49,4 obrazów na sekundę na urządzenie; w porównaniu do 3992 obrazów na sekundę lub 15,6 obrazów na sekundę na urządzenie w przypadku macierzy A100 „Ampere” starszej generacji.

Jest co do tego duże zastrzeżenie, a mianowicie wyniki uzyskano przy użyciu podstawowego PyTorch; Stability AI przyznaje, że dzięki optymalizacji TensorRT chipy A100 generują obrazy nawet o 40% szybciej niż Gaudi2. „W testach wnioskowania z modelem parametrów Stable Diffusion 3 8B, chipy Gaudi2 oferują prędkość wnioskowania podobną do chipów Nvidia A100 przy użyciu podstawowego PyTorch. Jednak dzięki optymalizacji TensorRT chipy A100 generują obrazy o 40% szybciej niż Gaudi2. Przewidujemy, że dzięki dalszej optymalizacji , Gaudi2 wkrótce przewyższy A100 w tym modelu. We wcześniejszych testach naszego modelu SDXL z podstawowym PyTorch, Gaudi2 generuje obraz 1024×1024 w 30 krokach w 3,2 sekundy, w porównaniu do 3,6 sekundy dla PyTorch na A100 i 2,7 sekundy dla generacji z TensorRT na A100.” Stabilność AI uważa, że ​​szybsze połączenia międzysystemowe i większa pamięć 96 GB sprawiają, że chipy Intela są konkurencyjne.

Stability AI planuje wdrożyć Gaudi2 w Stability Cloud.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Uzyskaj ograniczoną czasowo zniżkę na ten wielourządzeniowy power bank za 199,99 USD

Grafenowy power bank Flash Pro Plus potrafi po trochu wszystkiego. Ma akumulator o pojemności 25 000 mAh, porty USB-C i USB-A, bezprzewodowe...

Próbkowanie Kioxia Najnowsza generacja UFS Ver. Wbudowane urządzenia pamięci Flash 4.0

Kioxia Corporation, światowy lider w dziedzinie rozwiązań pamięciowych, ogłosiła dzisiaj, że rozpoczęła próbkowanie najnowszej generacji pamięci Universal Flash Storage (UFS) wer. Urządzenia...

Czy Trubbish może być błyszczący w Pokémon Go?

Trubbish, Pokémon w worku na śmieci z Unovy, można znaleźć na wolności w Pokemon Go. Tak, Trubbish może się błyszczeć...
Advertisment