AMD i Nexa AI ujawniają poprawę 4-bitowych 4-bitowych możliwości Deepseek R1 Distill


Nexa AI, dziś ogłosiła Nexaquants dwóch Deepseek R1 Destills: The Deepseek R1 Distill Qwen 1,5b i Deepseek R1 Distill Lama 8B. Popularne metody kwantyzacji, takie jak LLAMA.CPP oparte na CPP, aby duże modele językowe znacznie zmniejszyć ślad pamięci i zazwyczaj oferują niską utratę zakłopotania dla modeli gęstych jako kompromis. Jednak nawet utrata niskiej zakłopotania może skutkować możliwości rozumowania dla modeli (gęstego lub MOE), które wykorzystują łańcuch śladów myślowych. NEXA AI stwierdziło, że Nexaquanty są w stanie odzyskać tę utratę zdolności rozumowania (w porównaniu z pełną 16-bitową precyzją), zachowując jednocześnie 4-bitową kwantyzację i cały czas zachowując przewagę wydajności. Benchmarki dostarczone przez Nexę AI można zobaczyć poniżej.

Widzimy, że Q4 km kwantyzowano Deepseek R1 Distills, nieco mniej (z wyjątkiem ławki AIME24 na destylu LLAMA 3 8B, który wynika znacznie niższy) w odniesieniach LLM, takich jak GPQA i AIME24 w porównaniu z ich pełnymi 16-bitowymi częściami liczników. Przejście do kwantyzacji Q6 lub Q8 byłoby jednym ze sposobów rozwiązania tego problemu – ale spowodowałoby, że model stanie się nieco wolniejszy w uruchomieniu i wymaganiu większej pamięci. NEXA AI stwierdziło, że Nexaquanty stosują zastrzeżoną metodę kwantyzacji, aby odzyskać stratę, zachowując kwantyzację przy 4-bit. Oznacza to, że użytkownicy mogą teoretycznie uzyskać to, co najlepsze z obu światów: dokładność i szybkość.

Możesz przeczytać więcej o nexaquant Deepseek R1 destylacje Tutaj.

Do pobrania są następujące Nexaquants Deepseek R1 Distillills:Jak uruchomić nexaquants na procesorach AMD Ryzen lub karcie graficznej Radeon

Zalecamy użycie LM Studio do wszystkich potrzeb LLM.

  • 1) Pobierz i zainstaluj studio LM z lmstudio.ai/NyZenai
  • 2) Przejdź do zakładki Discover i wklej link do przytulania jednego z powyższych nexaquantów.
  • 3) Poczekaj, aż model zakończy pobieranie.
  • 4) Wróć do zakładki czatu i wybierz model z menu rozwijanego. Upewnij się, że „ręcznie wybierz parametry”.
  • 5) Ustaw warstwy odciążenia GPU na maks.
  • 6) Załaduj model i porozmawiaj!

Zgodnie z tymi danymi dostarczonymi przez NEXA AI, programiści mogą również korzystać z nexaquant wersji Deepseek R1 Destills powyżej, aby uzyskać ogólnie lepszą wydajność w aplikacjach opartych na Llama.CPP lub GGUF.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

1 historia dała Kingpinowi prawdziwego złoczyńcę i zainspirował Daredevil: Born Again

W Disney Plus„Podwójny kropla Daredevil: Urodził się ponownie Odcinki w tym tygodniu, pierwsze, „z zainteresowaniem”, wyróżniają się jako świetna przygoda z superbohaterami...

Chcesz poczuć się jak szpieg? Włóż inteligentny chip w swoim manicure

Kilka miesięcy temu wypychałem twarz świątecznymi ciasteczkami i nadrobiłem zaległości w odcinku Netflix's Netflix's Ultimatum. To była typowa ta godzina telewizji reality. Upośledzający...

TSMC mówi, że żetony Apple będą produkowane w nas w szybszym tempie

TSMC Pierwszy amerykański zakład chipowy trwał znacznie dłużej i rozpocząć produkcję niż prognozowano, ale firma twierdzi, że przyszłe zakłady będą kontynuowane w znacznie...
Advertisment