Inception, spółka zależna G42 z siedzibą w Abu Zabi, udostępniła model języka arabskiego (LLM) w wersji open source. Nowy model, nazwany Jais, wykorzystuje 13 miliardów parametrów, co stanowi miarę jego wyrafinowania i stopnia precyzji. Parametry można traktować jako współczynniki szeregu równań algebraicznych.
W fazie uczenia wartości parametrów są wyprowadzane z danych uczących i zapisywane jako część sieci neuronowej, która jest następnie wykorzystywana w fazie wnioskowania. Faza wnioskowania ma miejsce po wdrożeniu modelu – zbieranie pytań i poleceń od użytkowników oraz tworzenie odpowiedzi.
W skali światowej Jais jest modelem stosunkowo dużym, mieszczącym się pomiędzy GPT-2, który ma 1,5 miliarda parametrów, a GPT-3, który ma 175 miliardów. GPT-4 znacznie wyprzedza resztę, z 1,7 bilionami parametrów.
Jak powstał Jais
Nazwany na cześć najwyższej góry Zjednoczonych Emiratów Arabskich Jebel JaisLLM został opracowany przez Cerebras Systems, Inception i Uniwersytet Sztucznej Inteligencji Mohameda bin Zayeda (MBZUAI) – pierwsza na świecie podyplomowa uczelnia badawcza zajmująca się sztuczną inteligencją (AI). Jais był szkolony Galaktyka Kondorsuperkomputer AI obsługujący wiele exaFLOP niedawno ogłoszone przez G42 i Cerebras.
Jednym z wyzwań w szkoleniu LLM jest uzyskanie wystarczającej ilości tekstu do wprowadzenia. Jest to stosunkowo łatwe w przypadku języka angielskiego, zdecydowanie najpopularniejszego języka w Internecie. Według statystawedług stanu na styczeń 2023 r. 58,8% treści internetowych było w języku angielskim, a na drugim miejscu znajdował się język rosyjski – 5,3%. Teksty w języku arabskim stanowią jedynie 0,9% treści w ogólnoświatowej sieci.
„Kiedy zaczęliśmy podnosić głowę poza język angielski, zobaczyliśmy, że brak wystarczającej ilości danych stanowi problem również w przypadku innych języków” – mówi Andrew Feldman, dyrektor generalny i współzałożyciel Cerebras Systems. „Nawet jeśli liczba osób posługujących się danym językiem jest bardzo duża, ilość tekstu w Internecie może być niewielka. Dotyczy to na przykład języka hiszpańskiego. Istnieje kontynent, na którym posługują się osoby mówiące po hiszpańsku, ale ilość tekstu w Internecie jest stosunkowo niewielka.
„Odnosi się to również do hindi i mandaryńskiego, z których każdy ma setki milionów użytkowników. Mimo że chiński rząd poświęcił ogromną ilość czasu i pieniędzy, aby zaradzić temu problemowi, nadal nie ma wystarczającej ilości tekstu mandaryńskiego, aby zasilić żądny danych algorytm sztucznej inteligencji”.
„Z językiem arabskim wiążą się inne wyzwania. Dostępny tekst jest często kiepskim tłumaczeniem z języka angielskiego lub może być zbyt formalny. W języku arabskim część tekstów publikowanych w Internecie to pisma religijne lub poezja, co jest ważne, ale niezbyt przydatne, jeśli chcesz zbudować chatbota. Trzeba znaleźć nowoczesne wersje języka w stylu konwersacyjnym”.
Aby wypełnić tę lukę, opracowano zbiór danych w języku arabskim i angielskim zawierający 398 miliardów słów, specjalnie do szkolenia Jaisa i innych modeli sztucznej inteligencji. Niektóre aspekty LLM można przeszkolić, korzystając z danych z innych języków – w tym przypadku angielskiego. Na przykład model może nauczyć się podsumowywać, badając treść i streszczenia tej samej treści, niezależnie od języka.
Kolejnym wyzwaniem związanym z językiem arabskim jest liczba dialektów. „W świecie arabskim poza mediami nie ma dwóch osób, które rozmawiają ze sobą w formalnym języku arabskim” – mówi Andrew Jackson, dyrektor generalny Incepcji. „Używają jednego z dialektów. Zbieraliśmy jak najwięcej konwersacyjnych zbiorów danych i wykorzystywaliśmy je do wprowadzenia tokenów do naszego modelu. Kiedy już będziesz mieć szeroki zestaw różnych dialektów, dostosujesz model po stronie wyjściowej, aby mógł zdecydować, że gdy ten chatbot będzie używany w Libanie, odpowiedź zostanie udzielona w dialekcie libańskim.
Znaczenie Jais dla ludzi mówiących po arabsku
„W G42 zawsze mieliśmy śmiałe ambicje i chęć ich realizacji” – mówi Jackson. „Staramy się w jak największym stopniu przyczynić się do globalnego rozwoju sztucznej inteligencji, dostarczając znaczący wkład.
„Jesteśmy przekonani, że w ciągu następnej dekady AGI [artificial general intelligence] stanie się rzeczywistością, a my chcemy się do tego przyczynić i zadbać o to, aby odbyło się to w sposób bezpieczny. Chcemy mieć pewność, że sztuczna inteligencja będzie działać dla branż ważnych dla regionu, w tym dla sektora rządowego, opieki zdrowotnej, energetycznej i finansowej”.
Nowy LLM odpowiada na jedną z ważnych potrzeb regionu, jaką jest suwerenna kontrola. Nikt nie chce polegać na pomocy zewnętrznej w przypadku tak krytycznej technologii, jak sztuczna inteligencja. Jais zachęca do stosowania w pełni wewnętrznego podejścia, w ramach którego programiści pobierają model i integrują go ze swoimi aplikacjami.
Ta nieodłączna suwerenność zmniejsza zależność od zasobów zewnętrznych, umożliwiając organizacjom na całym Bliskim Wschodzie uruchamianie modelu w ramach własnej infrastruktury, zachowując pełną kontrolę nad wykorzystaniem i dostrajając model do własnych celów.
Jais zapewnia ponad 400 milionom arabskojęzycznych ludzi na świecie bardziej bezpośredni dostęp do możliwości sztucznej inteligencji, a LLM stanowi dla Abu Zabi krok naprzód w jego ambicjach stania się wiodącym na świecie centrum sztucznej inteligencji.
Inception zdecydowało się udostępnić Jais jako oprogramowanie typu open source, aby promować rozwijający się ekosystem wokół sztucznej inteligencji w języku arabskim i skierować go szczególnie do społeczności naukowych, akademickich i programistów. Firma ma również nadzieję służyć za przykład dla rodzimych użytkowników innych języków, które są obecnie niedostatecznie reprezentowane w głównym nurcie sztucznej inteligencji.
Kilka organizacji zaczęło już korzystać z Jais. Obejmuje to Ministerstwo Spraw Zagranicznych Zjednoczonych Emiratów Arabskich, Ministerstwo Przemysłu i Zaawansowanych Technologii Zjednoczonych Emiratów Arabskich, Departament Zdrowia – Abu Dhabi, Abu Dhabi National Oil Company (ADNOC), Etihad Airways oraz e&. Zainteresowali się nim także niezależni twórcy oprogramowania. W ciągu jednego dnia od wydania Jais został już pobrany z Przytulanie Twarzy tysiące razy.
„To nie jest dla nas koniec” – mówi Jackson. „Chcemy dostroić nasz podstawowy model pod kątem zastrzeżonych zbiorów danych, aby firmy z różnych branż mogły go wykorzystać do swoich konkretnych potrzeb”.