W jego Przeglądaj małe modele językowe dla określonych scenariuszy AI Raport, opublikowany w sierpniu 2024 r., Gartner bada, w jaki sposób zmieniły się definicje „małych” i „dużych” w modelach językowych AI.
Gartner zauważa, że szacuje się, że GPT-4 (Openai-marca 2023 r.), Gemini 1.5 (Google-luty 2024), LAMA 3,1 405B (meta-lipiec 2024 r.) I Claude 3 Opus (antropic-marca 2024 r.) Mają około pół biliona do dwóch bilionów parametrów. Na przeciwległym końcu spektrum modele takie jak Mistral 7b (Mistral.ai-wrzesień 2023 r.), Phi-3-Mini 3,8B i Phi-3-Smabl. 7B (Microsoft-kwiecień 2024 r.), Llama 3,1 8b (Meta-lipiec 2024) i Gemma 2 9b (Google-2024 r.).
Patrząc na jeden przykład zasobów obliczeniowych używanych przez mały model językowy w porównaniu z zasobami używanymi przez duży model językowy, Gartner informuje, że LLAMA 3 8B (osiem miliardów parametrów) wymaga 27,8 GB pamięci przetwarzania graficznego (GPU), podczas gdy LLAMA 3 70B (70 miliardów parametrów) wymaga 160GB.
Im więcej pamięci GPU, tym większy koszt. Na przykład po obecnych cenach GPU serwer zdolny do uruchomienia kompletnego parametru 670 miliardów Deepseek-R1 Model w pamięci będzie kosztować ponad 100 000 USD.
Destylacja wiedzy
Fakt, że duży model językowy jest kilkakrotnie większy niż mały model językowy – pod względem parametrów używanych podczas szkolenia do budowy modelu danych, którego używają Wnioskowanie AI – sugeruje, że SLM są szkolone jedynie na podstawie podzbioru danych. Sugeruje to, że prawdopodobnie będą dziury w ich wiedzy, dlatego czasami nie będą w stanie udzielić najlepszej odpowiedzi na konkretne zapytanie.
Destylowane SLM poprawiają jakość i rozumowanie odpowiedzi podczas stosowania ułamka obliczeń LLMS
„Ten transfer wiedzy stanowi jedno z najbardziej obiecujących podejść do demokratyzacji zaawansowanych możliwości językowych bez obliczeniowego obciążenia modeli parametrów miliardowych”, mówi. „Destylowane SLM poprawiają jakość odpowiedzi i rozumowanie, stosując ułamek obliczeń LLM.”
Vawdrey mówi, że destylacja wiedzy od LLM do SLM zaczyna się od dwóch kluczowych elementów: wstępnie wyszkolonego LLM, który służy jako „nauczyciel” oraz mniejszą architekturę, która stanie się „uczniem” SLM. Mniejsza architektura jest zwykle inicjowana losowo lub z podstawowym wstępnym treningiem.
Rozszerzanie SLM
Ani LLM, ani sam SLM nie mogą dostarczyć wszystkiego, czego potrzebuje organizacja. Użytkownicy korporacyjni zazwyczaj chcą łączyć dane przechowywane w ich korporacyjnych systemach IT z modelem AI.
Według Dominik TomicevicCEO dostawcy bazy danych Graph Memgraph, kontekst leży u podstaw całej debaty modelowej. „W przypadku bardzo ogólnych problemów na poziomie pracy domowej LLM działa dobrze, ale w chwili, gdy potrzebujesz sztucznej inteligencji językowej, aby być naprawdę przydatnym, musisz iść z SLM”, mówi.
Na przykład sposób, w jaki firma łączy farbę, buduje sieci Internetu rzeczy (IoT) lub harmonogramy dostawy jest wyjątkowy. „AI nie musi przypominać sobie, kto wygrał Puchar Świata w 1930 roku” – dodaje. „Potrzebujesz go, aby pomóc Ci zoptymalizować pod kątem konkretnego problemu w domenie korporacyjnej”.
Jak zauważa Tomicevic, SLM można przeszkolić w celu wykrywania zapytań dotyczących zamówień w systemie e-commerce, a w łańcuchu dostaw zyskują głęboką wiedzę na temat tego konkretnego obszaru-znacznie lepszym odpowiadaniem na odpowiednie pytania. Kolejną korzyścią jest to, że w przypadku operacji średniej i mniejszych szkolenie SLM jest znacznie tańsze-biorąc pod uwagę koszt GPU i mocy-niż szkolenie LLM.
Jednak według Tomicevic uzyskanie danych łańcucha dostaw do ukierunkowanego modelu małego języka jest technicznie poważną przeszkodą. „Aż do podstawowej architektury, którą dzielą zarówno LLM, jak i SLM – transformator – ewoluuje, aktualizacja modelu języka pozostaje trudna”, mówi. „Modele te wolą być szkolone w jednej dużej partii, pochłaniając wszystkie dane jednocześnie, a następnie rozumować tylko w ramach tego, co ich zdaniem wiedzą”.
Oznacza to aktualizację lub utrzymanie świeżego SLM, bez względu na to, jak dobrze skoncentrowane jest w przypadkach użycia firmy, pozostaje wyzwaniem. „Okno kontekstowe nadal musi być karmione odpowiednimi informacjami” – dodaje.
W przypadku tomicevic w tym miejscu pojawia się dodatkowy element-organizacje wielokrotnie stwierdzają, że wykres wiedzy jest najlepszym modelem danych do siedzenia obok SLM przeszkolonego w dziedzinie, działając jako jego stały nauczyciel i tłumacz.
Odzyskiwanie powiększonego pokolenia (RAG) Zasilane przez technologię wykresu może przekroczyć dane strukturalne i nieustrukturyzowane. Tomicevic twierdzi, że pozwala to systemom AI na pobieranie najbardziej odpowiednich spostrzeżeń o niższych kosztach i wyższej dokładności. „Zwiększa także rozumowanie poprzez dynamiczne pobieranie danych z aktualnej bazy danych, eliminowanie statycznego przechowywania i zapewnienie odpowiedzi na najnowsze informacje”, mówi.
„To przekształca sposób, w jaki organizacje wdrażają sztuczną inteligencję, wprowadzając potężne możliwości do środowisk wcześniej uważanych za niepraktyczne dla zaawansowanych obliczeń i demokratyzacji dostępu do barier geograficznych i infrastrukturalnych”, mówi.
Według Mahla Rag zapewnia rurociąg, który przecina szum, aby zapewnić precyzyjny, odpowiedni kontekst dla modeli małych języków.
Zmniejszenie błędów i halucynacji
Podczas gdy LLM są uważane za niezwykle potężne, cierpią na błędy znane jako Halucynacjedzięki czemu skutecznie wszystko wymyślą.
Rami Luisto, Healthcare AI Lead Data Scientist w Digital Workforcedostawca rozwiązań w zakresie automatyzacji i technologii biznesowej, mówi, że SLM zapewnia wyższy stopień przejrzystości ich wewnętrznych działań i wyników. „Gdy wyjaśnienie i zaufanie są kluczowe, kontrola SLM może być znacznie prostsza w porównaniu z próbą wydobycia przyczyn zachowania LLM”, mówi.
Podczas gdy wokół tematu jest dużo szumu branżowego Agentic AIgłówną barierą w korzystaniu z agentów AI do automatyzacji złożonego przepływu pracy jest to, że systemy te są podatne na błędy, co prowadzi do automatyzacji niepoprawnych decyzji. Ta niedokładność poprawi się z czasem, ale niewiele jest dowodów na to, że aplikacje korporacyjne są opracowywane z tolerancją potencjalnych błędów wprowadzonych przez Agentic AI Systems.
W ostatnim cotygodniowym podcastie komputerowym, Anushree Verma, dyrektor analityka w Gartner, zauważył, że nastąpi zmiana w kierunku modeli językowych specyficznych dla domeny i lżejszych modeli, które można dostroić. Z czasem prawdopodobne jest, że te mniejsze modele AI będą działać jak eksperci, aby uzupełnić bardziej ogólne systemy AI, które mogą pomóc w poprawie dokładności.
Analogia jest raczej jak ktoś, kto nie jest specjalistą w konkretnej dziedzinie, prosząc eksperta o poradę, trochę jak linia ratunkowa „Phone a Friend” w programie telewizyjnym gier Kto chce być milionerem?
Demis Hassabis, dyrektor generalny DeepMind, przewiduje świat gdzie wielu agentów AI koordynować działania w celu zapewnienia celu. Tak więc, chociaż SLM mógł zostać przeniesiony z wiedzy z LLM poprzez destylację wiedzy, dzięki technikom takim jak Rag i jej zdolności do optymalizacji pod kątem określonej domeny, SLM może być ostatecznie wezwany jako ekspert, aby pomóc w bardziej ogólnym LLM w odpowiedzi na pytanie specyficzne dla domeny.