W ciągu ostatnich dwóch lat przebudowaliśmy cały nasz stos głębokiego uczenia się i wspólnie z platformą Azure zaprojektowaliśmy od podstaw superkomputer do naszych zadań. Rok temu trenowaliśmy GPT-3.5 jako pierwszy „test” systemu. Znaleźliśmy i naprawiliśmy kilka błędów oraz poprawiliśmy nasze podstawy teoretyczne. W rezultacie nasz trening GPT-4 był (przynajmniej dla nas!) bezprecedensowo stabilny, stając się naszym pierwszym dużym modelem, którego wyniki treningowe byliśmy w stanie dokładnie przewidzieć z wyprzedzeniem. Ponieważ nadal koncentrujemy się na niezawodnym skalowaniu, dążymy do doskonalenia naszej metodologii, aby pomóc nam przewidywać i przygotowywać się na przyszłe możliwości z coraz większym wyprzedzeniem — coś, co uważamy za kluczowe dla bezpieczeństwa.
Uwalniamy możliwość wprowadzania tekstu GPT-4 przez ChatGPT i API (z listą oczekujących). Aby przygotować możliwość wprowadzania obrazów do szerszej dostępności, na początek ściśle współpracujemy z jednym partnerem. Udostępniamy również open-sourcing OpenAI Evals, naszą platformę do automatycznej oceny wydajności modeli AI, aby umożliwić każdemu zgłaszanie niedociągnięć w naszych modelach, aby pomóc w dalszych ulepszeniach.
W swobodnej rozmowie rozróżnienie między GPT-3.5 i GPT-4 może być subtelne. Różnica pojawia się, gdy złożoność zadania osiąga wystarczający próg — GPT-4 jest bardziej niezawodny, kreatywny i jest w stanie obsłużyć znacznie bardziej szczegółowe instrukcje niż GPT-3.5.
Aby zrozumieć różnicę między tymi dwoma modelami, przetestowaliśmy różne testy porównawcze, w tym symulujące egzaminy, które pierwotnie były przeznaczone dla ludzi. Postąpiliśmy, korzystając z najnowszych publicznie dostępnych testów (w przypadku Olimpiad i pytań z odpowiedzią bezpłatną AP) lub kupując edycje egzaminów praktycznych z lat 2022-2023. Nie odbyliśmy specjalnego szkolenia do tych egzaminów. Mniejszość problemów na egzaminach została dostrzeżona przez modelkę podczas szkolenia, ale uważamy, że wyniki są reprezentatywne — zobacz nasze raport techniczny dla szczegółów.
Z niecierpliwością oczekujemy, że GPT-4 stanie się cennym narzędziem poprawiającym życie ludzi, zasilając wiele aplikacji. Nadal jest dużo pracy do wykonania i nie możemy się doczekać ulepszenia tego modelu poprzez wspólne wysiłki społeczności, która buduje, eksploruje i przyczynia się do rozwoju tego modelu.