Najnowsze modele Alibaba AI DEMO Ulepszenia AI


Zaledwie dwa miesiące po tym, jak świat technologii został ulepszony przez Model AI Deepseek-R1Alibaba Cloud wprowadził QWQ-32B, duży model języka open source (LLM).

Chiński gigant chmur opisuje nowy model jako „kompaktowy model rozumowania”, który wykorzystuje tylko 32 miliardy parametrów, ale jest w stanie zapewnić wydajność porównywalną z innymi dużymi modelem AI, które wykorzystują większą liczbę parametrów.

Na swojej stronie internetowej Alibaba Cloud opublikował testy porównawcze wydajności, które sugerują, że nowy model jest porównywalny z modelami AI z Deepseek i Openai. Te testy porównawcze obejmują AIME 24 (rozumowanie matematyczne), Live CodeBench (biegłość w kodowaniu), LiveBench (zanieczyszczenie zestawu testu i ocena obiektywnej), IFEVAL (zdolność instruktażowa) oraz BFCL (możliwości wzywania narzędzia i funkcji).

Za pomocą ciągłego Wzmocnione uczenie się (RL) Skalowanie Alibaba twierdziło, że model QWQ-32B wykazuje znaczącą poprawę rozumowania matematycznego i biegłości w kodowaniu.

W poście na blogu firma Saide QWQ-32B, który wykorzystuje 32 miliardy parametrów, osiąga wydajność porównywalną z DeepSeek-R1, która wykorzystuje 671 miliardów parametrów. Alibaba powiedział, że pokazuje to skuteczność RL, gdy stosuje się do solidnych modeli fundamentów preferowanych w zakresie obszernej wiedzy światowej.

„Zintegrowaliśmy możliwości związane z agentami z modelem rozumowania, umożliwiając mu krytyczne myślenie przy jednoczesnym wykorzystaniu narzędzi i dostosowywaniu jego rozumowania w oparciu o opinie środowiskowe”, powiedział Alibaba w poście na blogu.

Reklama

Alibaba powiedział, że QWQ-32B pokazuje skuteczność stosowania uczenia się wzmocnienia (RL) w celu zwiększenia możliwości rozumowania. Dzięki temu podejściu do szkolenia AI agent uczenia się wzmocnienia jest w stanie postrzegać i interpretować swoje środowisko, a także podjąć działania oraz uczyć się poprzez próbę i błędy. Uczenie się wzmocnienia jest jednym z kilku podejść, które programiści stosują do szkolenia systemów uczenia maszynowego. Alibaba użył RL, aby zwiększyć wydajność swojego modelu.

„Nie tylko byliśmy świadkami ogromnego potencjału skalowanego RL, ale także rozpoznaliśmy niewykorzystane możliwości w pretrenowanych modelach językowych”, powiedział Alibaba. „Pracując nad opracowaniem następnej generacji QWEN, jesteśmy przekonani, że połączenie mocniejszych modeli fundamentów z RL zasilanymi skalowanymi zasobami obliczeniowymi doprowadzi nas do osiągnięcia Sztuczna inteligencja ogólna [AGI]. ”

Alibaba powiedział, że aktywnie bada integrację agentów z RL, aby umożliwić to, co opisuje jako „rozumowanie długoterminowe”, które według Alibaba ostatecznie doprowadzą do większej inteligencji ze skalowaniem czasu wnioskowania.

Model QWQ-32B został przeszkolony przy użyciu nagród z ogólnego modelu nagrody i weryfikatorów opartych na regułach, zwiększając jego ogólne możliwości. Według Alibaba obejmują one lepsze instrukcje dotyczące instrukcji, dostosowanie się do ludzkich preferencji i ulepszoną wydajność agentów.

Chińskie Deepseek, które jest ogólnie dostępne od początku roku, pokazuje skuteczność RL w swojej zdolności do dostarczania porównywalnych wyników porównawczych w porównaniu z rywalizującymi z dużymi modelami językowymi. Jego R1 LLM może konkurować z nami sztuczną inteligencją bez potrzeby uciekania się do najnowszego sprzętu GPU.

Fakt, że model QWQ-32B Alibaba również używa RL, nie jest przypadkiem. Stany Zjednoczone zakazały eksportu wysokiej klasy układów ACElerator Aclelerator-takich jak procesor graficzny NVIDIA H100-do Chin, co oznacza, że ​​chińscy programiści AI musieli przyjrzeć się alternatywnym podejściu do działania ich modeli. Wydaje się, że korzystanie z RL zapewnia porównywalne wyniki porównawcze w porównaniu z tym, jakie modele takie jak OpenAI są w stanie osiągnąć.

Interesujące w modelu QWQ-32B jest to, że wykorzystuje on znacznie mniej parametrów, aby osiągnąć podobne wyniki do DeepSeek, co skutecznie oznacza, że ​​powinien być w stanie działać na mniej wydajnym sprzęcie do przyspieszenia sztucznej inteligencji.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

W pełni funkcjonalny komputer Apple-1 sprzedaje za 375 000 USD na aukcji

Apple-1 było pierwszym komputerem zbudowanym przez Steve'a Jobsa i Steve'a Woźniaka, który oznaczał początek Apple. Nic dziwnego, że znalezienie dziś Apple-1 jest dość...

Pokémon Go Totodile Community Day Classic Guide

Pokémon Go ma Dzień społeczności Totodile wydarzenie na Sobota, 22 marca w godzinach 14–15 w czasie lokalnym.Zgodnie z oczekiwaniami podczas wydarzenia z...

NCSC, DSIT INLIST IBM do prowadzenia programu różnorodności cybernetycznej

Wielka Brytania National Cyber ​​Security Center (NCSC), współpracując z Departament Nauki, Innowacji i Technologii (DSIT), zwrócił się do wsparcia giganta technologicznego IBM za...
Advertisment