NVIDIA współpracowało ze stabilnością AI w celu kwantyzacji swojego najnowszego modelu, stabilna dyfuzja (SD) 3,5, do FP8 – zmniejszając zużycie VRAM o 40%. Dalsze optymalizacje do SD3,5 duże i średnie z podwójną wydajnością NVIDIA TENSORT ROUNDING KIT (SDK). Ponadto Tensorrt został ponownie wyobrażony na komputery RTX AI, łącząc swoją wiodącą w branży wydajność z Just-in-Time (JIT), budowaniem silnika na urządzeniu i 8-krotnym mniejszym rozmiarem pakietu dla bezproblemowego wdrażania AI na ponad 100 milionów komputerów RTX AI. Tensorrt dla RTX jest teraz dostępny jako samodzielny zestaw SDK dla programistów.
AI-ai-akcelery RTX
NVIDIA i stabilność AI zwiększają wydajność i zmniejszają wymagania VRAM stabilnej dyfuzji 3.5, jednego z najpopularniejszych modeli obrazów AI na świecie. Dzięki przyspieszeniu i kwantyzacji NVIDIA Tensorrt użytkownicy mogą teraz generować i edytować obrazy szybciej i wydajniej na GPU NVIDIA RTX.
Stabilna dyfuzja 3.5 kwantyzowana FP8 (po prawej) generuje obrazy w połowie czasu o podobnej jakości jak FP16 (po lewej). Podsumowanie: spokojne jezioro górskie o wschodzie słońca, krystalicznie czysta woda odbijająca śnieżne szczyty, bujne sosny wzdłuż brzegu, miękka poranna mgła, fotorealistyczne, żywe kolory, wysoka rozdzielczość.
Aby rozwiązać ograniczenia VRAM dużych 3,5, model został skwantowany za pomocą Tensorrt do FP8, zmniejszając wymaganie VRAM o 40% do 11 GB. Oznacza to, że pięć GPU serii GeForce RTX 50 może uruchomić model z pamięci zamiast jednego.
Duże i średnie modele SD3,5 zostały również zoptymalizowane z Tensorrt, backendem AI do pełnego korzystania z rdzeni tensorowych. Tensorrt optymalizuje wagi i wykres modelu – instrukcje dotyczące uruchomienia modelu – specjalnie dla GPU RTX.
FP8 Tensorrt zwiększa SD3,5 Duża wydajność o 2,3x vs. Pytorch BF16, z 40% mniejszym użyciem pamięci. W przypadku SD3,5 Medium BF16 Tensorrt zapewnia szybkość 1,7x.
W połączeniu FP8 Tensorrt zapewnia 2,3x wzmocnienie wydajności na SD3,5 duże w porównaniu z uruchamianiem oryginalnych modeli w Pytorch BF16, przy użyciu o 40% mniej pamięci. A w medium SD3,5 BF16 Tensorrt zapewnia wzrost wydajności o 1,7x w porównaniu z Pytorchem BF16.
Zoptymalizowane modele są teraz dostępne na stronie stabilności AI Hulging Face.
NVIDIA i stabilność AI współpracują również w celu zwolnienia SD3.5 jako mikrousługę NVIDIA NIM, ułatwiając twórcom i programistom dostęp do i wdrażania modelu dla szerokiej gamy aplikacji. Oczekuje się, że NIM MicroService zostanie wydana w lipcu.
Tensorrt dla RTX SDK
Ogłoszony w Microsoft Build – i już dostępny w ramach nowego systemu Windows ML w Preview – Tensorr dla RTX jest teraz dostępny jako samodzielny SDK dla programistów.
Wcześniej programiści musieli wstępnie generować i pakować silniki Tensort dla każdej klasy GPU-proces, który dałby optymalizacje specyficzne dla GPU, ale wymagały znacznego czasu.
Dzięki nowej wersji Tensorrt, programiści mogą utworzyć ogólny silnik Tensorrt, który jest zoptymalizowany na urządzeniu w sekundach. To podejście do kompilacji JIT można wykonać w tle podczas instalacji lub podczas pierwszego użycia tej funkcji.
Łatwy do zintegrowania SDK jest teraz o 8x mniejszy i może być wywoływany przez Windows ML-nowy backend wnioskowania AI Microsoft w systemie Windows. Deweloperzy mogą pobrać nowy samodzielny SDK ze strony programisty NVIDIA lub przetestować go w podglądzie Windows ML.
Aby uzyskać więcej informacji, przeczytaj to Blog techniczny NVIDIA I to Podsumowanie Microsoft Build.
Dołącz do Nvidia w GTC Paris
W NVIDIA GTC Paris w Vivatech – największym wydarzeniu startupowym i technologicznym w Europie – założyciel i dyrektor generalny NVIDIA, Jensen Huang wczoraj dostarczył przemówienie najnowszych przełomów w infrastrukturze AI Cloud, Agentic AI i fizycznej AI. Obejrzyj powtórkę.
GTC Paris trwa do czwartku, 12 czerwca, z praktycznymi demonstracjami i sesjami prowadzonymi przez liderów branży. Niezależnie od tego, czy uczęszczam osobiście, czy dołączyć do Internetu, na imprezie jest jeszcze wiele do odkrycia.