Duże modele językowe (LLM) używają ogromnych ilości danych i mocy obliczeniowej, aby tworzyć odpowiedzi na pytania, które wyglądają, a czasem nawet „ludzkie”. LLM mogą również generować muzykę, obrazy lub wideo, pisać kod i skanować w celu uzyskania naruszeń bezpieczeństwa wśród wielu innych zadań.
Ta zdolność doprowadziła do szybkiego przyjęcia Generatywna sztuczna inteligencja (Genai) i nowa generacja asystentów cyfrowych i „chatbotów”. Genai rosła szybciej niż jakakolwiek inna technologia. Według banku inwestycyjnego Chatgpt, najbardziej znany LLM, osiągnął 100 milionów użytkowników w ciągu zaledwie dwóch miesięcy. Osiągnięcie tej skali zajęło telefon komórkowy 16 lat.
LLMSJednak nie są jedynym sposobem na prowadzenie Genai. Modele małego języka (SLM), zwykle zdefiniowane jako przy użyciu nie więcej niż 10 do 15 miliardów parametrów, przyciągają zainteresowanie, zarówno z przedsiębiorstw komercyjnych, jak i w sektorze publicznym.
Małe lub mniejsze modele językowe powinny być bardziej opłacalne wdrażanie niż LLM i oferować większą prywatność i-potencjalnie-bezpieczeństwo. Podczas gdy LLM stały się popularne ze względu na szeroką gamę zdolności, SLM mogą działać lepiej niż LLM, przynajmniej w przypadku zadań określonych lub ściśle określonych.
W tym samym czasie SLM unikają niektórych wad LLM. Należą do nich ogromne zasoby, których wymagają albo lokalne lub w chmurze, oraz związany z nimi wpływ na środowisko, koszty rosnące usługi „Pay-as-You-Go” oraz ryzyko związane z przenoszeniem poufnych informacji na infrastrukturę chmurową stron trzecich.
Mniej jest więcej
SLM stają się również silniejsze i są w stanie rywalizować z LLM w niektórych przypadkach. Umożliwia to organizacjom prowadzenie SLM na mniej wydajnej infrastrukturze – niektóre modele mogą nawet działać na urządzeniach osobistych, w tym na telefony i tablety.
„W małej przestrzeni językowej widzimy, że niewielki jest mniejszy”, mówi Birgi Tamersoy, członek zespołu strategicznego AI w Gartner. „Z perspektywy aplikacji nadal widzimy zasięg od 10 do 15 miliardów jako mały, a kategoria średniej klasy.
„Ale jednocześnie widzimy wiele miliardów modeli parametrów i podziałów mniejszych niż miliard parametrów. Możesz nie potrzebować tej możliwości [of an LLM]a kiedy zmniejszasz wielkość modelu, skorzystasz z specjalizacji zadań. ”
Dla odniesienia szacuje się, że Chatgpt 4.0 działa na około 1,8 biliona parametrów.
Tamersoy widzi mniejsze, specjalistyczne modele do obsługi języków IND, rozumowania lub wizji i przetwarzania audio. Ale widzi również aplikacje w opiece zdrowotnej i innych obszarach, w których przepisy utrudniają korzystanie z chmur LLM, dodając: „W szpitalu pozwala uruchomić go na maszynie”.
Zalety SLM
Kolejnym rozróżnieniem jest to, że LLM są szkolone na podstawie publicznie dostępnych informacji. SLM mogą być szkolone w zakresie prywatnych i często wrażliwych danych. Nawet tam, gdzie dane nie są poufne, użycie SLM z dostosowanym źródłem danych pozwala uniknąć niektórych błędów lub halucynacji, które mogą wpływać na nawet najlepsze LLM.
„W przypadku modelu małego języka zostały one zaprojektowane tak, aby wchłonąć i uczyć się z pewnego obszaru wiedzy”, mówi Jith M, CTO w firmie konsultingowej HEXAWARE.
„Jeśli ktoś chce interpretacji norm prawnych w Ameryce Północnej, mógłby pójść do Chatgpt, ale zamiast USA może przekazać ci informacje z Kanady lub Meksyku. Ale jeśli masz mały model fundamentu, i szkolisz go bardzo specyficznie, odpowiedział odpowiednim zestawem danych, ponieważ nie wie nic innego”.
Model przeszkolony w bardziej ograniczonym zestawie danych jest mniej skłonny do uzyskania niektórych niejednoznacznych i czasami zawstydzających wyników przypisywanych LLM.
Wydajność i wydajność mogą również sprzyjać SLM. Na przykład Microsoft wyszkolił swój model oparty na transformatorze PHI-1, aby pisać kod Pythona z wysokim poziomem dokładności-według niektórych szacunków było 25 razy lepsze.
Chociaż Microsoft odnosi się do jego Seria PHI Jako duże modele językowe, Phi-1 używał tylko 1,3 mld parametrów. Microsoft twierdzi, że jego najnowsze modele PHI-3 przewyższają LLM dwa razy większe. Chińskie LLM Deepseek jest również, według niektórych miar, mniejszy model językowy. Naukowcy uważają, że ma parametry 70 mld, ale Deepseek używa tylko 37 mld na raz.
„To zasada Pareto, 80% zysku dla 20% pracy”, mówi Dominik Tomicevik, współzałożyciel Memgraph. „Jeśli masz dane publiczne, możesz zadać duże, szerokie pytania do dużego modelu języka w różnych różnych dziedzinach życia. To rodzaj osobistego asystenta.
„Ale wiele interesujących aplikacji w przedsiębiorstwie jest naprawdę ograniczonych pod względem domeny, a model nie musi znać wszystkich Szekspira. Możesz uczynić modele znacznie bardziej wydajne, jeśli są odpowiednie do określonego celu”.
Kolejnym czynnikiem napędzającym zainteresowanie modelami małych języków jest ich niższy koszt. Większość LLM działa na modelu opartym na płatności jako w chmurze, a użytkownicy są pobierani za token (wiele znaków) wysyłanych lub odbieranych. Wraz ze wzrostem wykorzystania LLM podobnie opłaty uiszczone przez organizację. A jeśli to użycie nie jest powiązane z procesami biznesowymi, CIO może być trudne do ustalenia, czy jest to stosunek jakości do ceny.
Dzięki mniejszym modelom językowym opcja uruchamiania lokalnego sprzętu przynosi miarę kontroli kosztów. Koszty z góry to wydatki inwestycyjne, rozwój i szkolenie. Ale po zbudowaniu modelu nie powinno być znaczących podwyżek kosztów z powodu użycia.
„Istnieje potrzeba oceny kosztów. LLM są zwykle bardziej kosztowne niż SLM”, mówi Gianluca Barletta, ekspert ds. Danych i analizy w PA Consulting. Oczekuje, że zobaczy mieszankę opcji, a LLM pracuje z mniejszymi modelami.
„Eksperymentacja na SLMS jest naprawdę wokół wymaganej mocy obliczeniowej, która jest znacznie mniejsza niż LLM. Tak więc pożyczają się bardziej konkretnym, na krawędzi. Może to być na IoT [internet of things] Urządzenie, telewizor obsługiwany przez AI lub smartfon, ponieważ moc obliczeniowa jest znacznie mniejsza. ”
Wdrażanie SLM na krawędzi
Tal Zarfati, główny architekt w JFRog, dostawcy łańcucha dostaw oprogramowania korzystającego z AI, zgadza się. Ale Zarfati rozróżnia również mniejsze modele działające w centrum danych lub w infrastrukturze chmury prywatnej a tymi działającymi na urządzeniu Edge. Obejmuje to zarówno urządzenia osobiste, jak i bardziej specjalistyczny sprzęt, takie jak urządzenia bezpieczeństwa i zapory ogniowe.
„Moje doświadczenie z omawiania modeli małych języków z klientami korporacyjnymi jest to, czy mogą uruchomić ten model wewnętrznie i uzyskać podobne doświadczenie jak hostowany model dużych języków”, mówi Zarfati. „Kiedy mówimy o modelach z milionami parametrów, takich jak mniejsze modele LAMA, są one bardzo małe w porównaniu z Chatgpt4.5, ale nadal nie są wystarczająco małe, aby w pełni działać na urządzeniach krawędziowych”.
Prawo Moore’a popycha SLM do krawędzi, dodaje: „Mniejsze modele mogą być hostowane wewnętrznie przez organizację, a najmniejsze będą mogły działać na urządzeniach krawędziowych, ale definicja„ małego ”będzie prawdopodobnie większa w miarę upływu czasu”.
Dostawcy sprzętu inwestują w urządzenia „gotowe do AI”, w tym na komputery stacjonarne i laptopy, w tym poprzez dodanie jednostek przetwarzania neuronowych (NPU) do swoich produktów. Jak zauważa Tamersoy Gartnera, firmy takie jak Apple mają patenty w wielu specjalistycznych modelach AI, dodając; „Widzimy kilka przykładów po mobilnej stronie, aby móc uruchomić niektóre z tych algorytmów na samym urządzeniu, bez chodzenia do chmury”.
Wynika to zarówno z potrzeb regulacyjnych w celu ochrony danych, jak i potrzeby przeprowadzania przetwarzania jak najbliżej danych, aby zminimalizować problemy i opóźnienia łączności. Podejście to zostało przyjęte przez Scibite, oddział Elsevier, który koncentruje się na danych nauk przyrodniczych.
„Widzimy, jak wiele koncentrujemy się na generatywnej sztucznej inteligencji w całym procesie odkrywania leków.
„W jakim scenariuszu chciałbyś użyć SLM? Chciałbyś wiedzieć, że istnieje konkretny problem, który możesz zdefiniować. Jeśli jest to szerokie, bardziej złożone zadanie, w którym wymagane jest ciężkie rozumowanie i potrzeba zrozumienia kontekstu, być może tam, gdzie trzymasz się LLM.
„Jeśli masz konkretny problem i masz dobre dane do wyszkolenia modelu, musisz go tańszy, gdzie prywatność jest ważna, a potencjalnie wydajność jest ważniejsza niż dokładność, właśnie tam patrzyliście na SLM”. Tamersoy widzi, jak mniejsze modele są używane we wczesnym etapie badań i rozwoju, takie jak przewidywanie właściwości molekularnych, po analizie wymagań regulacyjnych.
W PA Consulting firma współpracowała z witryną przetwarzania nuklearnego Sellafield, aby pomóc im być na bieżąco z przepisami.
„Zbudowaliśmy mały model językowy, aby pomóc im zmniejszyć obciążenie administracyjne”, mówi Barletta. „Istnieją stałe zmiany regulacyjne, które należy wziąć pod uwagę. Stworzyliśmy model, aby zmniejszyć go z tygodni do minut. Model określa, które zmiany są istotne, a które dokumenty mają wpływ, co daje inżynierom coś do oceny. Jest to klasyczny przykład konkretnego przypadku użycia z ograniczonymi zestawami danych.”
Ponieważ urządzenia rosną w mocy, a SLM stają się bardziej wydajne, trendem jest popychanie mocniejszych modeli coraz bliżej użytkownika końcowego.
„To ewoluująca przestrzeń”, mówi Jith M. Hexaware „Nie uwierzyłbym, że dwa lata temu mógłbym uruchomić model parametrów 70 miliardów na ślad, który był tylko rozmiarem mojej dłoni … Urządzenia osobiste będą miały NPU, aby przyspieszyć AI. Chipy pozwoli nam bardzo szybko uruchomić lokalne modele.