Lama 3 posiada obecnie dwie wagi modelu, o parametrach 8B i 70B. (B oznacza miliardy i oznacza, jak złożony jest model i ile z jego uczenia rozumie). Jak dotąd oferuje jedynie odpowiedzi tekstowe, ale Meta twierdzi, że to „duży skok” nad poprzednią wersją. Lama 3 wykazywała większą różnorodność w odpowiadaniu na podpowiedzi, miała mniej fałszywych odmów w przypadku odmowy odpowiedzi na pytania i potrafiła lepiej rozumować. Meta twierdzi również, że Lama 3 rozumie więcej instrukcji i pisze lepszy kod niż wcześniej.
W poście Meta twierdzi, że oba rozmiary Lamy 3 są podobnej wielkości modele takie jak Google Gemma oraz Gemini, Mistral 7B i Claude 3 firmy Anthropic w niektórych testach porównawczych. W teście porównawczym MMLU, który zazwyczaj mierzy wiedzę ogólną, Llama 3 8B wypadła znacznie lepiej niż zarówno Gemma 7B, jak i Mistral 7B, podczas gdy Llama 3 70B była nieco gorsza Bliźnięta Pro 1.5.
(Być może warto zauważyć, że post Meta zawierający 2700 słów nie wspomina o GPT-4, flagowym modelu OpenAI.)
Należy również zauważyć, że testy porównawcze modeli AI, choć pomocne w zrozumieniu ich mocy, jest niedoskonały. Stwierdzono, że zbiory danych wykorzystywane do testów porównawczych modeli stanowią część uczenia modelu, co oznacza, że model zna już odpowiedzi na pytania, które zadają mu oceniający.
Meta mówi oceniający również ocenili Llamę 3 wyżej niż inne modele, w tym GPT-3.5 OpenAI. Meta twierdzi, że stworzyła nowy zestaw danych dla ludzi oceniających, aby emulować rzeczywiste scenariusze, w których można zastosować Lamę 3. Ten zbiór danych obejmował przypadki użycia, takie jak proszenie o radę, podsumowanie i kreatywne pisanie. Firma twierdzi, że zespół pracujący nad modelem nie miał dostępu do nowych danych oceniających i nie miało to wpływu na działanie modelu.
„Ten zestaw ewaluacyjny zawiera 1800 podpowiedzi obejmujących 12 kluczowych przypadków użycia: prośba o radę, burza mózgów, klasyfikacja, odpowiadanie na pytania zamknięte, kodowanie, kreatywne pisanie, ekstrakcja, zamieszkiwanie postaci/osoby, odpowiadanie na pytania otwarte, rozumowanie, przepisywanie i podsumowanie, ” Meta mówi w swoim poście na blogu.
Oczekuje się, że Lama 3 uzyska większe rozmiary modeli (które będą w stanie zrozumieć dłuższe ciągi instrukcji i danych) i będzie w stanie zapewnić więcej odpowiedzi multimodalnych, takich jak „Wygeneruj obraz” lub „Transkrybuj plik audio”. Meta twierdzi, że te większe wersje, które mają parametry ponad 400B i w idealnym przypadku mogą uczyć się bardziej złożonych wzorców niż mniejsze wersje modelu, są obecnie w fazie szkolenia, ale wstępne testy wydajności pokazują, że te modele mogą odpowiedzieć na wiele pytań postawionych podczas testów porównawczych.
Meta nie opublikowała jednak podglądu tych większych modeli i nie porównała ich z innymi dużymi modelami, takimi jak GPT-4.