Microsoft wypuścił kolejną wersję swojego lekkiego modelu AI Phi-3 Mini, pierwszego z trzech małych modeli, które firma planuje wypuścić.
Phi-3 Mini mierzy 3,8 miliarda parametrów i jest szkolony na stosunkowo mniejszym zbiorze danych duże modele językowe, takie jak GPT-4. Jest teraz dostępny na platformie Azure, Hugging Face i Ollama. Microsoft planuje wypuścić Phi-3 Small (parametry 7B) i Phi-3 Medium (parametry 14B). Parametry odnoszą się do liczby złożonych instrukcji, które model może zrozumieć.
Firma wypuścił Phi-2 w grudniuktóra radziła sobie równie dobrze z większymi modelami, jak Llama 2. Microsoft twierdzi, że Phi-3 działa lepiej niż poprzednia wersja i może zapewnić reakcje zbliżone do modelu 10 razy większego niż to możliwe.
Mówi Eric Boyd, wiceprezes korporacyjny platformy Microsoft Azure AI Krawędź Phi-3 Mini ma takie same możliwości jak LLM, takie jak GPT-3.5, „tylko w mniejszej obudowie”.
W porównaniu do swoich większych odpowiedników, małych modeli AI są często tańsze w eksploatacji i działają lepiej na urządzeniach osobistych urządzeń takich jak telefony i laptopy. Informacja na początku tego roku informowaliśmy, że Microsoft tak budowanie zespołu skupionego szczególnie na lżejszych modelach AI. Wraz z Phi firma również zbudowała Orka-Matematykamodel skupiający się na rozwiązywaniu problemów matematycznych.
Boyd twierdzi, że programiści przeszkolili Phi-3 w ramach „programu nauczania”. Inspiracją do ich powstania było to, jak dzieci uczyły się z bajek na dobranoc, książek zawierających prostsze słowa i konstrukcji zdaniowych, które poruszają szersze tematy.
„Nie ma wystarczającej liczby książek dla dzieci, więc wzięliśmy listę zawierającą ponad 3000 słów i poprosiliśmy szkołę LLM o stworzenie „książek dla dzieci” do nauczania Phi” – mówi Boyd.
Dodał, że Phi-3 po prostu oparł się na tym, czego nauczyły się poprzednie iteracje. Podczas gdy Phi-1 skupiła się na kodowaniu, a Phi-2 zaczęła uczyć się rozumowania, Phi-3 jest lepsza w kodowaniu i rozumowaniu. Chociaż rodzina modeli Phi-3 posiada pewną wiedzę ogólną, nie jest w stanie przebić GPT-4 ani innego LLM w szerokim zakresie — istnieje duża różnica w rodzaju odpowiedzi, jakie można uzyskać od LLM przeszkolonego w całym Internecie w porównaniu z modelem LLM przeszkolonym w całym Internecie mniejszy model, taki jak Phi-3.
Boyd twierdzi, że firmy często stwierdzają, że mniejsze modele, takie jak Phi-3, lepiej sprawdzają się w niestandardowych zastosowaniach, ponieważ w przypadku wielu firm ich wewnętrzne zbiory danych i tak będą mniejsze. A ponieważ modele te zużywają mniej mocy obliczeniowej, często są znacznie tańsze.