Widzimy, że Q4 km kwantyzowano Deepseek R1 Distills, nieco mniej (z wyjątkiem ławki AIME24 na destylu LLAMA 3 8B, który wynika znacznie niższy) w odniesieniach LLM, takich jak GPQA i AIME24 w porównaniu z ich pełnymi 16-bitowymi częściami liczników. Przejście do kwantyzacji Q6 lub Q8 byłoby jednym ze sposobów rozwiązania tego problemu – ale spowodowałoby, że model stanie się nieco wolniejszy w uruchomieniu i wymaganiu większej pamięci. NEXA AI stwierdziło, że Nexaquanty stosują zastrzeżoną metodę kwantyzacji, aby odzyskać stratę, zachowując kwantyzację przy 4-bit. Oznacza to, że użytkownicy mogą teoretycznie uzyskać to, co najlepsze z obu światów: dokładność i szybkość.
Możesz przeczytać więcej o nexaquant Deepseek R1 destylacje Tutaj.
Do pobrania są następujące Nexaquants Deepseek R1 Distillills:Jak uruchomić nexaquants na procesorach AMD Ryzen lub karcie graficznej Radeon
Zalecamy użycie LM Studio do wszystkich potrzeb LLM.
- 1) Pobierz i zainstaluj studio LM z lmstudio.ai/NyZenai
- 2) Przejdź do zakładki Discover i wklej link do przytulania jednego z powyższych nexaquantów.
- 3) Poczekaj, aż model zakończy pobieranie.
- 4) Wróć do zakładki czatu i wybierz model z menu rozwijanego. Upewnij się, że „ręcznie wybierz parametry”.
- 5) Ustaw warstwy odciążenia GPU na maks.
- 6) Załaduj model i porozmawiaj!
Zgodnie z tymi danymi dostarczonymi przez NEXA AI, programiści mogą również korzystać z nexaquant wersji Deepseek R1 Destills powyżej, aby uzyskać ogólnie lepszą wydajność w aplikacjach opartych na Llama.CPP lub GGUF.