W lipcu ośrodek Meta Fundamental AI Research (FAIR) wypuścił swój duży model językowy Llama 2 stosunkowo otwarcie i bezpłatnieco stanowi wyraźny kontrast w stosunku do największych konkurentów. Jednak w świecie oprogramowania typu open source niektórzy nadal widzą oprogramowanie firmy otwartość z gwiazdką.
Chociaż licencja Meta sprawia, że Llama 2 jest dla wielu bezpłatna, nadal jest to licencja ograniczona, która nie spełnia wszystkich wymagań Inicjatywy Open Source (OSI). Jak opisano w Definicja otwartego źródła OSIopen source to coś więcej niż tylko udostępnianie kodu lub badań. Prawdziwie otwarte oprogramowanie oznacza oferowanie bezpłatnej redystrybucji, dostęp do kodu źródłowego, umożliwianie modyfikacji i nie może być powiązane z konkretnym produktem. Ograniczenia Meta obejmują wymaganie opłaty licencyjnej od wszystkich programistów korzystających z ponad 700 milionów użytkowników dziennie i uniemożliwianie innym modelom szkolenia na Lamie. Spektrum IEEE napisali badacze z Uniwersytetu Radboud w Holandii, twierdząc, że Meta stwierdza, że Llama 2 jest oprogramowaniem typu open source „wprowadza w błąd”, a media społecznościowe posty kwestionowany jak Meta mogła twierdzić, że jest to oprogramowanie typu open source.
Joelle Pineau, liderka FAIR i wiceprezes Meta ds. badań nad sztuczną inteligencją, jest świadoma ograniczeń otwartości Meta. Twierdzi jednak, że jest to niezbędna równowaga między korzyściami płynącymi z wymiany informacji a potencjalnymi kosztami dla działalności Meta. W wywiadzie z KrawędźPineau twierdzi, że nawet ograniczone podejście Meta do otwartości pomogło badaczom przyjąć bardziej skoncentrowane podejście do projektów AI.
„Bycie otwartym zmieniło wewnętrznie sposób, w jaki podchodzimy do badań, i skłania nas do niepublikowania niczego, co nie jest zbyt bezpieczne, i od samego początku bycia odpowiedzialnymi” – mówi Pineau.
Dział sztucznej inteligencji Meta pracował już wcześniej nad bardziej otwartymi projektami
Jedną z największych inicjatyw Meta w zakresie open source jest PyTorch, język kodowania oparty na uczeniu maszynowym, używany do opracowywania generatywnych modeli sztucznej inteligencji. Firma udostępniła PyTorch społeczności open source w 2016 roku i od tego czasu zewnętrzni programiści stale nad nim pracują. Pineau ma nadzieję wzbudzić takie same emocje wokół generatywnych modeli sztucznej inteligencji, zwłaszcza że PyTorch „bardzo się poprawił” od czasu udostępnienia oprogramowania typu open source.
Mówi, że wybór ilości wydania zależy od kilku czynników, w tym od tego, jak bezpieczny będzie kod w rękach zewnętrznych programistów.
„Sposób, w jaki zdecydujemy się opublikować nasze badania lub kod, zależy od dojrzałości dzieła” – mówi Pineau. „Kiedy nie wiemy, jakie mogą być szkody i jakie jest ich bezpieczeństwo, ostrożnie udostępniamy badania mniejszej grupie”.
Dla FAIR ważne jest, aby „różnorodna grupa badaczy” mogła zobaczyć wyniki swoich badań w celu uzyskania lepszych informacji zwrotnych. Z tego samego etosu korzystała Meta, ogłaszając premierę Llama 2, tworząc narrację mówiącą, że firma wierzy, że innowacje w zakresie generatywnej sztucznej inteligencji muszą opierać się na współpracy.
Pineau twierdzi, że Meta uczestniczy w grupach branżowych, takich jak Partnerstwo na rzecz sztucznej inteligencji i MLCommons, aby pomóc w opracowywaniu podstawowych testów porównawczych modeli i wytycznych dotyczących bezpiecznego wdrażania modeli. Woli współpracować z grupami branżowymi, ponieważ wierzy, że żadna firma nie jest w stanie poprowadzić rozmowy na temat bezpiecznej i odpowiedzialnej sztucznej inteligencji w społeczności open source.
Podejście Meta do otwartości wydaje się nowatorskie w świecie dużych firm zajmujących się sztuczną inteligencją. OpenAI zaczynało jako firma o bardziej otwartych źródłach i badaniach. Ale współzałożyciel i główny naukowiec OpenAI Ilya Sutskever powiedział Krawędź to było błędem jest udostępnianie wyników swoich badań, powołując się na obawy związane z konkurencyjnością i bezpieczeństwem. Choć Google od czasu do czasu udostępnia artykuły swoich naukowców, to jednak zachowuje powściągliwość w kwestii opracowania niektórych ze swoich dużych modeli językowych.
Graczami w branży open source są zazwyczaj mniejsi programiści, tacy jak Stability AI i EleutherAI, którzy odnieśli pewien sukces w przestrzeni komercyjnej. Deweloperzy open source regularnie udostępniają nowe LLM w repozytoriach kodu Hugging Face i GitHub. Sokółoprogramowanie LLM o otwartym kodzie źródłowym z Instytutu Innowacji Technologicznych z siedzibą w Dubaju, również zyskało na popularności i konkuruje zarówno z Llamą 2, jak i GPT-4.
Warto jednak zauważyć, że większość zamkniętych firm zajmujących się sztuczną inteligencją nie udostępnia szczegółów dotyczących gromadzenia danych w celu tworzenia zbiorów danych do szkolenia modeli.
Pineau twierdzi, że obecne systemy licencjonowania nie zostały zaprojektowane do współpracy z oprogramowaniem pobierającym ogromne ilości danych zewnętrznych, jak ma to miejsce w przypadku wielu generatywnych usług sztucznej inteligencji. Większość licencji, zarówno typu open source, jak i zastrzeżonych, zapewnia ograniczoną odpowiedzialność użytkownikom i programistom oraz bardzo ograniczone odszkodowanie za naruszenie praw autorskich. Pineau twierdzi jednak, że modele sztucznej inteligencji, takie jak Llama 2, zawierają więcej danych szkoleniowych i narażają użytkowników na potencjalnie większą odpowiedzialność, jeśli wygenerują coś uznanego za naruszenie. Obecny zbiór licencji na oprogramowanie nie pokrywa tej nieuniknionej sytuacji.
„Modele sztucznej inteligencji różnią się od oprogramowania, ponieważ wiążą się z większym ryzykiem, dlatego uważam, że powinniśmy ewoluować obecne licencje użytkowników, aby lepiej dopasować je do modeli sztucznej inteligencji” – mówi. „Ale nie jestem prawnikiem, więc pozostawiam im sprawę w tej kwestii”.
Ludzie z branży zaczęli przyglądać się ograniczeniom niektórych licencji typu open source dla LLM w przestrzeni komercyjnej, podczas gdy niektórzy się kłócą to czyste i prawdziwe otwarte oprogramowanie jest w najlepszym przypadku debatą filozoficzną i czymś, czym programiści nie przejmują się tak bardzo.
Mówi Stefano Maffulli, dyrektor wykonawczy OSI Krawędź że grupa rozumie, że obecne licencje zatwierdzone przez OSI mogą nie spełniać niektórych potrzeb modeli sztucznej inteligencji. Mówi, że OSI sprawdza, jak współpracować z programistami AI, aby zapewnić przejrzysty, niewymagający uprawnień, a jednocześnie bezpieczny dostęp do modeli.
„Zdecydowanie musimy ponownie przemyśleć licencje w sposób uwzględniający rzeczywiste ograniczenia praw autorskich i pozwoleń w modelach sztucznej inteligencji, zachowując jednocześnie wiele założeń społeczności open source” – mówi Maffulli.
OSI jest również w trakcie tworzenia definicji open source w odniesieniu do sztucznej inteligencji.
Gdziekolwiek dojdziesz do debaty „Czy Llama 2 jest naprawdę open source”, nie jest to jedyna potencjalna miara otwartości. A najnowszy raport ze Stanfordpokazało na przykład, że żadna z czołowych firm stosujących modele sztucznej inteligencji nie mówi wystarczająco dużo o potencjalnych zagrożeniach i o tym, jak wiarygodnie ponoszą odpowiedzialność, jeśli coś pójdzie nie tak. Uznanie potencjalnego ryzyka i zapewnienie możliwości uzyskania informacji zwrotnej niekoniecznie jest standardową częścią dyskusji na temat otwartego oprogramowania — ale powinno być normą dla każdego, kto tworzy model sztucznej inteligencji.