NVIDIA TENSORT zwiększa stabilną wydajność dyfuzji 3.5 na NVIDIA GeForce RTX i RTX Pro GPU


Generative AI przekształciło sposób, w jaki ludzie tworzą, wyobrażają sobie i wchodzą w interakcje z treścią cyfrową. Ponieważ modele AI nadal rosną w zakresie zdolności i złożoności, wymagają większej pamięci VRAM lub losowego dostępu do wideo. Na przykład duży stabilny model dyfuzji 3.5 wykorzystuje ponad 18 GB VRAM – ograniczając liczbę systemów, które mogą go dobrze uruchamiać. Stosując kwantyzację do modelu, niekrytyczne warstwy można usunąć lub uruchomić z niższą precyzją. NVIDIA GeForce RTX 40 Series i generowanie ADA Lovelace NVIDIA RTX Pro GPU obsługują kwantyzację FP8, aby pomóc w uruchomieniu tych kwantyzowanych modeli, a GPU NVIDIA Blackwell najnowszej generacji również dodają obsługi FP4.

NVIDIA współpracowało ze stabilnością AI w celu kwantyzacji swojego najnowszego modelu, stabilna dyfuzja (SD) 3,5, do FP8 – zmniejszając zużycie VRAM o 40%. Dalsze optymalizacje do SD3,5 duże i średnie z podwójną wydajnością NVIDIA TENSORT ROUNDING KIT (SDK). Ponadto Tensorrt został ponownie wyobrażony na komputery RTX AI, łącząc swoją wiodącą w branży wydajność z Just-in-Time (JIT), budowaniem silnika na urządzeniu i 8-krotnym mniejszym rozmiarem pakietu dla bezproblemowego wdrażania AI na ponad 100 milionów komputerów RTX AI. Tensorrt dla RTX jest teraz dostępny jako samodzielny zestaw SDK dla programistów.

AI-ai-akcelery RTX

NVIDIA i stabilność AI zwiększają wydajność i zmniejszają wymagania VRAM stabilnej dyfuzji 3.5, jednego z najpopularniejszych modeli obrazów AI na świecie. Dzięki przyspieszeniu i kwantyzacji NVIDIA Tensorrt użytkownicy mogą teraz generować i edytować obrazy szybciej i wydajniej na GPU NVIDIA RTX.

Stabilna dyfuzja 3.5 kwantyzowana FP8 (po prawej) generuje obrazy w połowie czasu o podobnej jakości jak FP16 (po lewej). Podsumowanie: spokojne jezioro górskie o wschodzie słońca, krystalicznie czysta woda odbijająca śnieżne szczyty, bujne sosny wzdłuż brzegu, miękka poranna mgła, fotorealistyczne, żywe kolory, wysoka rozdzielczość.

Aby rozwiązać ograniczenia VRAM dużych 3,5, model został skwantowany za pomocą Tensorrt do FP8, zmniejszając wymaganie VRAM o 40% do 11 GB. Oznacza to, że pięć GPU serii GeForce RTX 50 może uruchomić model z pamięci zamiast jednego.

Duże i średnie modele SD3,5 zostały również zoptymalizowane z Tensorrt, backendem AI do pełnego korzystania z rdzeni tensorowych. Tensorrt optymalizuje wagi i wykres modelu – instrukcje dotyczące uruchomienia modelu – specjalnie dla GPU RTX.

Reklama

FP8 Tensorrt zwiększa SD3,5 Duża wydajność o 2,3x vs. Pytorch BF16, z 40% mniejszym użyciem pamięci. W przypadku SD3,5 Medium BF16 Tensorrt zapewnia szybkość 1,7x.

W połączeniu FP8 Tensorrt zapewnia 2,3x wzmocnienie wydajności na SD3,5 duże w porównaniu z uruchamianiem oryginalnych modeli w Pytorch BF16, przy użyciu o 40% mniej pamięci. A w medium SD3,5 BF16 Tensorrt zapewnia wzrost wydajności o 1,7x w porównaniu z Pytorchem BF16.

Zoptymalizowane modele są teraz dostępne na stronie stabilności AI Hulging Face.

NVIDIA i stabilność AI współpracują również w celu zwolnienia SD3.5 jako mikrousługę NVIDIA NIM, ułatwiając twórcom i programistom dostęp do i wdrażania modelu dla szerokiej gamy aplikacji. Oczekuje się, że NIM MicroService zostanie wydana w lipcu.

Tensorrt dla RTX SDK
Ogłoszony w Microsoft Build – i już dostępny w ramach nowego systemu Windows ML w Preview – Tensorr dla RTX jest teraz dostępny jako samodzielny SDK dla programistów.

Wcześniej programiści musieli wstępnie generować i pakować silniki Tensort dla każdej klasy GPU-proces, który dałby optymalizacje specyficzne dla GPU, ale wymagały znacznego czasu.

Dzięki nowej wersji Tensorrt, programiści mogą utworzyć ogólny silnik Tensorrt, który jest zoptymalizowany na urządzeniu w sekundach. To podejście do kompilacji JIT można wykonać w tle podczas instalacji lub podczas pierwszego użycia tej funkcji.

Łatwy do zintegrowania SDK jest teraz o 8x mniejszy i może być wywoływany przez Windows ML-nowy backend wnioskowania AI Microsoft w systemie Windows. Deweloperzy mogą pobrać nowy samodzielny SDK ze strony programisty NVIDIA lub przetestować go w podglądzie Windows ML.

Aby uzyskać więcej informacji, przeczytaj to Blog techniczny NVIDIA I to Podsumowanie Microsoft Build.

Dołącz do Nvidia w GTC Paris
W NVIDIA GTC Paris w Vivatech – największym wydarzeniu startupowym i technologicznym w Europie – założyciel i dyrektor generalny NVIDIA, Jensen Huang wczoraj dostarczył przemówienie najnowszych przełomów w infrastrukturze AI Cloud, Agentic AI i fizycznej AI. Obejrzyj powtórkę.

GTC Paris trwa do czwartku, 12 czerwca, z praktycznymi demonstracjami i sesjami prowadzonymi przez liderów branży. Niezależnie od tego, czy uczęszczam osobiście, czy dołączyć do Internetu, na imprezie jest jeszcze wiele do odkrycia.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Aqara G410 jest teraz dostępny z Bezpieczną obsługą wideo HomeKit

Aqara ogłosiła wydanie nowego centrum aparatu do drzwi, The Aqara G410 (Użyj kodu Aqaraus7 zaoszczędzić 15% do 7/13). Ten inteligentny dzwonek do drzwi...

YouTube „wyjaśnia” swój plan demonetyzowania spamma AI Slop

YouTube próbuje uspokoić obawy dotyczące przychodzącej aktualizacji swoich zasad monetyzacji po reakcji od twórców internetowych. Ogłoszenie, że YouTube będzie Aktualizacja ograniczeń dotyczących treści...

Dzień trzeci Prim Day 2025 Oferty są tak samo dobre jak pierwszy dzień

Amazon Prime Day Zwykle jest sprintem - dwa gorączkowe dni ofert pioruna, przepełnione koszyki na zakupy i wystarczającą liczbę zakładek przeglądarki, aby rozbić...
Advertisment