Dzięki 2 węzłam, 16 akceleratorom i stałej wielkości partii wynoszącej 16 na akcelerator (w sumie 256) macierz Intel Gaudi2 jest w stanie wygenerować 927 obrazów na sekundę w porównaniu do 595 obrazów na sekundę w przypadku macierzy H100 i 381 obrazów na sekundę w przypadku macierzy H100. tablicę A100, utrzymując stałą liczbę akceleratorów i węzłów. Po skalowaniu w górę do 32 węzłów i 256 akceleratorów, czyli wielkości partii wynoszącej 16 na akcelerator (całkowity rozmiar partii wynoszącej 4096), tablica Gaudi2 publikuje 12 654 obrazów na sekundę; lub 49,4 obrazów na sekundę na urządzenie; w porównaniu do 3992 obrazów na sekundę lub 15,6 obrazów na sekundę na urządzenie w przypadku macierzy A100 „Ampere” starszej generacji.
Jest co do tego duże zastrzeżenie, a mianowicie wyniki uzyskano przy użyciu podstawowego PyTorch; Stability AI przyznaje, że dzięki optymalizacji TensorRT chipy A100 generują obrazy nawet o 40% szybciej niż Gaudi2. „W testach wnioskowania z modelem parametrów Stable Diffusion 3 8B, chipy Gaudi2 oferują prędkość wnioskowania podobną do chipów Nvidia A100 przy użyciu podstawowego PyTorch. Jednak dzięki optymalizacji TensorRT chipy A100 generują obrazy o 40% szybciej niż Gaudi2. Przewidujemy, że dzięki dalszej optymalizacji , Gaudi2 wkrótce przewyższy A100 w tym modelu. We wcześniejszych testach naszego modelu SDXL z podstawowym PyTorch, Gaudi2 generuje obraz 1024×1024 w 30 krokach w 3,2 sekundy, w porównaniu do 3,6 sekundy dla PyTorch na A100 i 2,7 sekundy dla generacji z TensorRT na A100.” Stabilność AI uważa, że szybsze połączenia międzysystemowe i większa pamięć 96 GB sprawiają, że chipy Intela są konkurencyjne.
Stability AI planuje wdrożyć Gaudi2 w Stability Cloud.