Dwa tygodnie temu Meta ogłosiła swój najnowszy model języka AI: Lama. Chociaż nie jest dostępny dla publiczności, jak OpenAI ChatGPT lub Microsoftu BingLLaMA to wkład Meta w rozwój technologii języka AI, który obiecuje nowe sposoby interakcji z naszymi komputerami, a także nowe zagrożenia.
Meta nie udostępniła LLaMA jako publicznego chatbota (chociaż właściciel Facebooka Jest też je budować), ale jako pakiet typu open source, do którego każdy członek społeczności AI może poprosić o dostęp. Intencją, jak powiedziała firma, jest „dalsza demokratyzacja dostępu” do sztucznej inteligencji, aby pobudzić badania nad jej problemami. Meta korzyści, jeśli te systemy są mniej wadliwe, więc chętnie wyda pieniądze na stworzenie modelu i rozpowszechnienie go, aby inni mogli z nim rozwiązać problem.
„Nawet przy wszystkich ostatnich postępach w dużych modelach językowych pełny dostęp do nich pozostaje ograniczony ze względu na zasoby wymagane do trenowania i obsługi tak dużych modeli”, powiedziała firma w post na blogu. „Ten ograniczony dostęp ogranicza zdolność badaczy do zrozumienia, jak i dlaczego te duże modele językowe działają, utrudniając postęp w wysiłkach zmierzających do poprawy ich solidności i złagodzenia znanych problemów, takich jak stronniczość, toksyczność i możliwość generowania dezinformacji”.
Najnowocześniejszy model języka sztucznej inteligencji Meta wyciekł na 4chan tydzień po wydaniu
Jednak zaledwie tydzień po tym, jak Meta zaczęła wysyłać prośby o dostęp do LLaMA, model wyciekł online. 3 marca na 4chan opublikowano torrent systemu do pobrania, który od tego czasu rozprzestrzenił się w różnych społecznościach AI, wywołując debatę na temat właściwego sposobu udostępniania najnowocześniejszych badań w czasach szybkich zmian technologicznych.
Niektórzy twierdzą, że wyciek będzie miał niepokojące konsekwencje i obwiniają Metę za zbyt swobodną dystrybucję technologii. „Przygotuj się na mnóstwo spersonalizowanych prób spamu i phishingu” tweetował badacz cyberbezpieczeństwa Jeffrey Ladish po tym, jak pojawiły się wiadomości. „Otwarte zaopatrzenie w te modele było okropnym pomysłem”.
Inni są bardziej optymistyczni, argumentując, że otwarty dostęp jest niezbędny do opracowania zabezpieczeń dla systemów sztucznej inteligencji i że podobnie złożone modele językowe zostały już upublicznione bez powodowania znacznych szkód.
„Od jakiegoś czasu mówiono nam o fali złośliwego użycia [of AI language models] nadchodzi” – napisali badacze Sayash Kapoor i Arvind Narayanan w a post na blogu. „Jednak wydaje się, że nie ma żadnych udokumentowanych przypadków”. (Raporty o zniżkach Kapoora i Narayanana dla studentów oszukiwanie za pomocą ChatGPT lub witryn opanowany przez spam AI lub publikacja pełne błędów dziennikarstwo AIponieważ te aplikacje nie mają na celu wyrządzania szkód i z definicji nie są złośliwe).
Krawędź rozmawiał z wieloma badaczami AI, którzy pobrali wyciekający system i twierdzą, że jest on zgodny z prawem, w tym z jednym — Matthew Di Ferrante — który był w stanie porównać ujawnioną wersję z oficjalnym modelem LLaMA dystrybuowanym przez Meta i potwierdził, że pasują. Meta odmówiła odpowiedzi na pytania od Krawędź o autentyczności lub pochodzeniu wycieku, chociaż Joelle Pineau, dyrektor zarządzający Meta AI, potwierdzony w oświadczeniu prasowym, że „Podczas gdy [LLaMA] model nie jest dostępny dla wszystkich… niektórzy próbowali obejść proces zatwierdzania”.
LLaMA to potężna sztuczna inteligencja — jeśli masz czas, wiedzę i odpowiedni sprzęt
Więc jak duże niebezpieczeństwo stwarza LLaMA na wolności? A jak model Meta wypada w porównaniu z publicznie dostępnymi chatbotami, takimi jak ChatGPT i nowy Bing?
Cóż, najważniejsze jest to, że pobieranie LLaMA niewiele da przeciętnemu użytkownikowi Internetu. To nie jest gotowy do rozmowy chatbot, ale „surowy” system sztucznej inteligencji, który wymaga przyzwoitej wiedzy technicznej, aby zacząć działać. (Szybka uwaga: LLaMA również nie jest pojedynczy systemowy, ale cztery modeli o różnych rozmiarach i wymaganiach obliczeniowych. Więcej na ten temat później.)
mówi Di Ferrante Krawędź że „każdy, kto jest zaznajomiony z konfigurowaniem serwerów i środowisk programistycznych dla złożonych projektów” powinien być w stanie uruchomić LLaMA „z wystarczającą ilością czasu i odpowiednimi instrukcjami”. (Chociaż warto zauważyć, że Di Ferrante jest również doświadczonym inżynierem uczenia maszynowego z dostępem do „stacji roboczej uczenia maszynowego, która ma 4 procesory graficzne 24 GB”, a więc nie jest reprezentatywny dla szerszej populacji).
LLaMA to „surowy” model, który wymaga dużo pracy, aby zaczął działać
Oprócz barier sprzętowych i wiedzy, LLaMA nie została również „dostrojona” do konwersacji, takich jak ChatGPT lub Bing. Dostrajanie to proces, w którym uniwersalne możliwości generowania tekstu modelu językowego są skoncentrowane na bardziej konkretnym zadaniu. To zadanie może być dość szerokie — np. powiedzieć systemowi, aby „odpowiadał na zapytania użytkowników tak dokładnie i jasno, jak to możliwe” — ale takie dopracowanie jest koniecznym i często trudnym krokiem w tworzeniu produktu przyjaznego dla użytkownika.
Biorąc pod uwagę te ograniczenia, być może pomocne będzie myślenie o LLaMA jako o nieumeblowanym bloku mieszkalnym. Wykonano wiele ciężkich prac — zbudowano ramę, zainstalowano zasilanie i hydraulikę — ale nie ma drzwi, podłóg ani mebli. Nie możesz po prostu się wprowadzić i nazwać go domem.
Stella Biderman, dyrektor non-profit laboratorium badawczego sztucznej inteligencji EleutherAI i badacz uczenia maszynowego w Booz Allen Hamilton, powiedziała, że wymagania obliczeniowe modelu będą „ograniczeniem numer jeden” jego efektywnego wykorzystania. „Większość ludzi nie posiada sprzętu wymaganego do działania [the largest version of LLaMA] w ogóle, nie mówiąc już o wydajności” – powiedział Biderman Krawędź.
Pomijając te zastrzeżenia, LLaMA jest nadal niezwykle potężnym narzędziem. Model jest dostępny w czterech rozmiarach, które są mierzone w miliardach parametrów (wskaźnik, który z grubsza przekłada się na liczbę połączeń w każdym systemie). Jest LLaMA-7B, 13B, 30B i 65B. Meta twierdzi, że wersja o wartości 13 miliardów — którą można uruchomić na pojedynczym procesorze graficznym A100, systemie klasy korporacyjnej, który jest stosunkowo dostępny i kosztuje kilka dolarów za godzinę wynajmu na platformach chmurowych — przewyższa model OpenAI o 175 miliardach parametrów GPT-3 na licznych testach porównawczych dla modeli językowych AI.
„Myślę, że jest bardzo prawdopodobne, że wydanie tego modelu będzie ogromnym kamieniem milowym”.
Oczywiście toczy się wiele dyskusji na temat zasadności tych porównań. Testy porównawcze AI są znane z tego, że nie przekładają się na rzeczywiste użycie, a niektórzy użytkownicy LLaMA mieli problemy z uzyskaniem przyzwoitych danych wyjściowych z systemu (podczas gdy inni sugerowali, że jest to jedynie kwestia umiejętności). Ale razem wzięte, te wskaźniki sugerują, że po dopracowaniu LLaMA będzie oferować możliwości podobne do ChatGPT. Wielu obserwatorów uważa, że zwarty charakter LLaMA będzie miał znaczący wpływ na pobudzenie rozwoju.
„Myślę, że jest bardzo prawdopodobne, że wydanie tego modelu będzie ogromnym kamieniem milowym” — mówi Shawn Presser, niezależny badacz AI, który pomógł w dystrybucji ujawnionego modelu Krawędź. Jak mówi Presser: możliwość uruchomienia LLaMA na pojedynczym procesorze graficznym A100 — do którego „większość z nas albo ma dostęp… albo zna kogoś, kto może nam przez chwilę z niego korzystać” — to „ogromny skok”.
Przyszłość badań nad sztuczną inteligencją: otwarta czy zamknięta?
Wyciek LLaMA jest również interesujący, ponieważ wpisuje się w trwającą walkę ideologiczną w szerszym świecie sztucznej inteligencji: bitwę między systemami „zamkniętymi” i „otwartymi”.
Zdefiniowanie tej debaty wymaga nieco uproszczenia, a wszystkie firmy, badacze i modele istnieją gdzieś w spektrum między tymi dwoma biegunami. Ale zasadniczo są osoby otwierające, które opowiadają się za większym dostępem do badań i modeli AI, oraz osoby zamykające, które uważają, że te informacje i technologie należy rozdzielać ostrożniej.
Motywacja tych obozów jest zbieżna (oba chcą mniej złych rzeczy AI i więcej dobrych rzeczy AI na świecie), ale ich podejścia są różne. Otwieracze argumentują, że tylko poprzez szeroko zakrojone testowanie systemów sztucznej inteligencji można znaleźć luki w zabezpieczeniach i opracować zabezpieczenia, a brak otwartego oprogramowania tej technologii spowoduje skoncentrowanie władzy w rękach obojętnych korporacji. Bliscy odpowiadają, że taka wolność dla wszystkich jest niebezpieczna i że w miarę jak sztuczna inteligencja staje się coraz bardziej wyrafinowana, stawka testów publicznych staje się coraz wyższa. Tylko zamknięte instytucje mogą odpowiednio kontrolować i łagodzić takie zagrożenia.
Dla tych, którzy chcą więcej otwartości, wyciek LLaMA jest błogosławieństwem. Di Ferrante mówi, że generalnie uważa, że posiadanie systemów open source „jest dobrem netto, ponieważ zapobiega sytuacji monopolistycznej, w której OpenAI i in. są jedynymi podmiotami zdolnymi do obsługi złożonych [AI models]”. Presser zgadza się z tym i mówi, że „surowy” stan LLaMA jest pod tym względem szczególnie atrakcyjny. Oznacza to, że niezależni badacze mogą dostroić systemy Meta do własnych celów; wyposażając swoją pustą ramę w sklepy, biura lub cokolwiek im się podoba.
Presser wyobraża sobie, że przyszłe wersje LLaMA mogłyby być hostowane na twoim komputerze i trenowane na twoich e-mailach; w stanie odpowiedzieć na pytania dotyczące harmonogramów pracy, wcześniejszych pomysłów, list rzeczy do zrobienia i nie tylko. Jest to funkcjonalność, którą rozwijają startupy i firmy technologiczne, ale dla wielu badaczy sztucznej inteligencji idea kontroli lokalnej jest o wiele bardziej atrakcyjna. (Dla typowych użytkowników kompromisy w kosztach i prywatności w celu ułatwienia użytkowania prawdopodobnie zmienią sytuację).
„Jeśli nie szanujemy podejmowanych w dobrej wierze przez ludzi prób rozpowszechniania technologii [it makes it] trudniej ludziom uwolnić rzeczy”.
Niezależnie od siły otwartych lub zamkniętych modeli rozpowszechniania sztucznej inteligencji, Biderman zauważa, że wyciek jest prawdopodobnie szkodliwy pod względem zmniejszania zaufania między firmami takimi jak Meta a naukowcami, z którymi dzielą się swoimi badaniami. „Jeśli nie będziemy szanować podejmowanych w dobrej wierze przez ludzi prób rozpowszechniania technologii w sposób zgodny z ich zobowiązaniami prawnymi i etycznymi, stworzy to jedynie bardziej wrogie relacje między opinią publiczną a naukowcami i utrudni ludziom udostępnianie rzeczy, – zauważa.
Jednak takie wydarzenia widzieliśmy już wcześniej. Chociaż to OpenAI jako pierwszy wprowadził systemy przetwarzania tekstu na obraz do głównego nurtu za pomocą DALL-E 2 (którego wypuściło z korporacyjną ironią jako zamknięte API), firma popełniła błąd, wprowadzając na rynek Stable Diffusion, alternatywa open-source. Pojawienie się Stable Diffusion uruchomiło niezliczone aplikacje i ulepszenia w przestrzeni artystycznej AI i doprowadziło — używając moich wcześniejszych określeń — do obu lepszych rzeczy I dzieje się więcej złych rzeczy. Z LLaMA Meta na wolności, prawdopodobnie zobaczymy podobną dynamiczną grę ponownie z generowaniem tekstu AI: więcej rzeczy, więcej czasu.