Co nowego w GPT-4 — od przetwarzania zdjęć po testy

We wtorek, OpenAI ogłosił GPT-4, model języka AI nowej generacji. Chociaż firma ostrzega, że różnice między GPT-4 a jego poprzednikami są „subtelne” w zwykłej rozmowie, system wciąż ma wiele nowych możliwości. Może przetwarzać obrazy za jeden, a OpenAI twierdzi, że ogólnie lepiej radzi sobie z kreatywnymi zadaniami i rozwiązywaniem problemów.

Ocena tych twierdzeń jest trudna. Ogólnie rzecz biorąc, modele sztucznej inteligencji są niezwykle złożone, a systemy takie jak GPT-4 są rozległe i wielofunkcyjne, z ukrytymi i jeszcze nieznanymi możliwościami. Wyzwaniem jest również sprawdzanie faktów. Kiedy na przykład GPT-4 z pewnością powie ci, że stworzył nowy związek chemiczny, nie będziesz wiedział, czy to prawda, dopóki nie zapytasz kilku prawdziwych chemików. (Chociaż to nigdy nie powstrzymuje niektórych bombastycznych twierdzeń, które stają się wirusowe na Twitterze.) Jak wyraźnie stwierdza OpenAI w swoim raport technicznynajwiększym ograniczeniem GPT-4 jest to, że „ma halucynacje” informacje (zmyśla je) i często „pewnie się myli w swoich przewidywaniach”.

Pomijając te zastrzeżenia, GPT-4 jest zdecydowanie ekscytujący technicznie i jest już integrowany z dużymi, głównymi produktami. Aby więc poczuć, co nowego, zebraliśmy kilka przykładów jego wyczynów i możliwości z serwisów informacyjnych, Twittera i samego OpenAI, a także przeprowadziliśmy własne testy. Oto, co wiemy:

Może przetwarzać obrazy obok tekstu

Jak wspomniano powyżej, jest to największa praktyczna różnica między GPT-4 a jego poprzednikami. System jest multimodalny, co oznacza, że może analizować zarówno obrazy, jak i tekst, podczas gdy GPT-3.5 mógł przetwarzać tylko tekst. Oznacza to, że GPT-4 może analizować zawartość obrazu i łączyć te informacje z pisemnym pytaniem. (Chociaż nie może generować obrazów takich jak DALL-E, Midjourney lub Stable Diffusion).

Co to oznacza w praktyce? The New York Times podkreśla jedno demo gdzie GPT-4 pokazuje wnętrze lodówki i pyta, jakie posiłki można przygotować ze składników. Rzeczywiście, w oparciu o obraz, GPT-4 podaje kilka przykładów, zarówno pikantnych, jak i słodkich. Warto jednak zauważyć, że jedna z tych sugestii — okład — wymaga składnika, którego tam nie ma: tortilli.

Reklama

Zwróć uwagę na brak miodu, orzechów lub tortilli na obrazie.

Zdjęcie: The New York Times

Istnieje wiele innych aplikacji dla tej funkcji. W wersji demonstracyjnej transmitowane przez OpenAI po ogłoszeniu, firma pokazała, jak GPT-4 może stworzyć kod dla strony internetowej na podstawie odręcznego szkicu, na przykład (wideo umieszczone poniżej). OpenAI współpracuje również ze start-upem Be My Eyes, który wykorzystuje rozpoznawanie obiektów lub wolontariuszy, aby pomóc ludziom z problemami ze wzrokiem, ulepszyć aplikację firmy za pomocą GPT-4.

Tego rodzaju funkcjonalność nie jest całkowicie wyjątkowa (wiele aplikacji oferuje podstawowe rozpoznawanie obiektów, np Aplikacja Apple Magnifier), ale OpenAI twierdzi, że GPT-4 może „generować ten sam poziom kontekstu i zrozumienia, co ochotnik” — wyjaśniając świat wokół użytkownika, podsumowując zagracone strony internetowe lub odpowiadając na pytania dotyczące tego, co „widzi”. Funkcjonalność nie jest jeszcze dostępna, ale „będzie w rękach użytkowników za kilka tygodni”, mówi firma.

Najwyraźniej inna firma również eksperymentowała z możliwościami rozpoznawania obrazu GPT-4. Jordan Singer, założyciel firmy Diagram, tweetował że firma pracuje nad dodaniem technologii do swoich narzędzi asystenta projektowania AI, aby dodać takie rzeczy, jak chatbot, który może komentować projekty, oraz narzędzie, które może pomóc w generowaniu projektów.

Jak pokazują poniższe obrazy, GPT-4 może również wyjaśniać zabawne obrazy:

Lepiej bawi się językiem

OpenAI twierdzi, że GPT-4 jest lepszy w zadaniach wymagających kreatywności lub zaawansowanego rozumowania. Trudno to ocenić, ale wydaje się słuszne na podstawie niektórych testów, które widzieliśmy i przeprowadziliśmy (chociaż różnice w stosunku do poprzedników nie są jak dotąd zaskakujące).

Podczas demonstracja firmy z GPT-4, współzałożyciel OpenAI, Greg Brockman, poprosił go o podsumowanie sekcji posta na blogu, używając tylko słów zaczynających się na „g”. (Później poprosił go również, aby zrobił to samo, ale z „a” i „q”). „Odnieśliśmy sukces w przypadku 4, ale nigdy tak naprawdę nie osiągnęliśmy tego z 3,5”, powiedział Brockman przed rozpoczęciem demonstracji. W filmie OpenAI GPT-4 odpowiada rozsądnie zrozumiałym zdaniem zawierającym tylko jedno słowo, które nie zaczyna się na literę „g” — i robi to całkowicie zaraz po tym, jak Brockman prosi go o poprawienie się. Tymczasem GPT-3 nawet nie próbował wykonać polecenia.

Sami się z tym bawiliśmy, dając ChatGPT trochę tekstu do podsumowania, używając tylko słów zaczynających się od „n”, porównując modele GPT-3.5 i 4. (W tym przypadku karmienie go fragmentami a Skraj Wyjaśnienie NFT.) Przy pierwszej próbie GPT-4 lepiej podsumował tekst, ale gorzej trzymał się podpowiedzi.

1/2

Próba GPT-4 podsumowania kilku akapitów słowami, które zaczynają się tylko na literę „n”.

Zrzut ekranu: Mitchell Clark / The Verge

Kiedy jednak poprosiliśmy oba modele o naprawienie błędów, GPT-3.5 w zasadzie się poddał, podczas gdy GPT-4 dał niemal doskonały wynik. Nadal zawierało „on”, ale żeby być uczciwym, przegapiliśmy to, prosząc o korektę.

Poprosiliśmy również obie modelki o przekształcenie naszego artykułu w rymowany wiersz. I chociaż czytanie poezji o NFT jest bolesne, GPT-4 zdecydowanie wykonał tutaj lepszą robotę; jego wiersz wydawał się znacznie bardziej złożony, podczas gdy GPT-3.5 wypadły jak ktoś, kto robi kiepski freestyl.

1/2

Wiersz GPT-3.5 o NFT — dlaczego sobie to zrobiłem?

Zrzut ekranu: Mitchell Clark / The Verge

Może przetworzyć więcej tekstu

Modele językowe AI zawsze były ograniczone ilością tekstu, który mogą przechowywać w swojej pamięci krótkotrwałej (czyli: tekstu zawartego zarówno w pytaniu użytkownika, jak iw odpowiedzi systemu). Ale OpenAI drastycznie rozszerzyło te możliwości dla GPT-4. System może teraz przetwarzać całe artykuły naukowe i nowele za jednym razem, co pozwala mu odpowiadać na bardziej skomplikowane pytania i łączyć więcej szczegółów w dowolnym zapytaniu.

Warto zauważyć, że GPT-4 nie ma liczby znaków ani słów jako taki, ale mierzy swoje wejście i wyjście w jednostce znanej jako „tokeny”. Ten proces tokenizacji jest dość skomplikowany, ale musisz wiedzieć, że token jest równy mniej więcej cztery znaki i że 75 słów zwykle zajmuje około 100 tokenów.

Maksymalna liczba tokenów, których GPT-3.5-turbo może użyć w dowolnym zapytaniu, wynosi około 4000, co przekłada się na nieco ponad 3000 słów. Dla porównania, GPT-4 może przetwarzać około 32 000 tokenów, co według OpenAI daje około 25 000 słów. Firma twierdzi, że „nadal optymalizuje” pod kątem dłuższych kontekstów, ale wyższy limit oznacza, że model powinien odblokować przypadki użycia, które wcześniej nie były tak łatwe.

Może zdać testy

Jednym z wyróżniających się wskaźników z raportu technicznego OpenAI na temat GPT-4 była jego wydajność w szeregu standardowych testów, w tym BAR, LSAT, GRE, wielu modułach AP oraz — z nieznanego, ale bardzo zabawnego powodu — w Introductory Kursy Certyfikowanego i Zaawansowanego Sommeliera oferowane przez Court of Master Sommeliers (teoria tylko).

Możesz zobaczyć porównanie wyników GPT-4 i GPT-3 w niektórych z tych testów poniżej. Zauważ, że GPT-4 jest teraz dość konsekwentnie zaliczany do różnych modułów AP, ale wciąż ma problemy z tymi, które wymagają większej kreatywności (np. egzaminy z języka angielskiego i literatury angielskiej).

Porównanie wydajności GPT-4 w różnych standardowych testach z GPT-3.5.

Obraz: OpenAI

To imponujący pokaz, zwłaszcza w porównaniu z tym, co osiągnęłyby poprzednie systemy sztucznej inteligencji, ale zrozumienie tego osiągnięcia wymaga również odrobiny kontekstu. Myślę, że inżynier i pisarz Joshua Levy umieść to najlepiej na Twitterzeopisując błąd logiczny, któremu wielu ulega, patrząc na te wyniki: „To, że oprogramowanie może przejść test przeznaczony dla ludzi, nie oznacza, że ma takie same możliwości jak ludzie, którzy zdali ten sam test”.

Informatyk Melanie Mitchell omówiła ten problem obszerniej w a post na blogu omawiający wyniki ChatGPT na różnych egzaminach. Jak wskazuje Mitchell, zdolność systemów sztucznej inteligencji do przejścia tych testów zależy od ich zdolności do przechowywania i odtwarzania określonych rodzajów ustrukturyzowanej wiedzy. Nie musi to koniecznie oznaczać, że systemy te mogą następnie uogólniać na podstawie tej linii bazowej. Innymi słowy: sztuczna inteligencja może być najlepszym przykładem nauczania na próbę.

Jest już używany w głównych produktach

W ramach ogłoszenia GPT-4 firma OpenAI udostępniła kilka historii o organizacjach korzystających z tego modelu. Należą do nich funkcja nauczyciela AI opracowywana przez Kahn Academy, która ma pomagać uczniom w odrabianiu zajęć i dawać nauczycielom pomysły na lekcje, a także integrację z Duolingo, która obiecuje podobne interaktywne doświadczenie edukacyjne.

Oferta Duolingo nazywa się Duolingo Max i dodaje dwie nowe funkcje. Jeden poda „proste wyjaśnienie”, dlaczego twoja odpowiedź na ćwiczenie była dobra lub zła, i pozwoli ci poprosić o inne przykłady lub wyjaśnienia. Drugi to tryb „odgrywania ról”, który pozwala ćwiczyć używanie języka w różnych scenariuszach, takich jak zamawianie kawy po francusku lub planowanie wycieczki po hiszpańsku. (Obecnie są to jedyne dwa języki dostępne dla tej funkcji). Firma twierdzi, że GPT-4 sprawia, że „żadne dwie rozmowy nie będą dokładnie takie same”.

Inne firmy używają GPT-4 w powiązanych domenach. Intercom ogłosił dzisiaj, że aktualizuje swój bot obsługi klienta korzystający z modeluobiecując, że system połączy się z dokumentami pomocy technicznej firmy, aby odpowiedzieć na pytania, podczas gdy Stripe jest procesorem płatności korzystania z systemu wewnętrznie udzielanie odpowiedzi na pytania pracowników na podstawie posiadanej dokumentacji technicznej.

Cały czas napędza nowy Bing

Po ogłoszeniu OpenAI, Microsoft potwierdził że model wspomagający czat Bing to w rzeczywistości GPT-4.

To nie jest wstrząsające odkrycie. Microsoft powiedział już, że używa „dużego modelu językowego OpenAI nowej generacji”, ale unikał nazywania go GPT-4, ale mimo wszystko dobrze jest wiedzieć i oznacza to, że możemy wykorzystać część tego, czego nauczyliśmy się z interakcji z Bing pomyśl też o GPT-4.

Wciąż popełnia błędy

Oczywiście czat Bing nie jest doskonały. Bot próbował ludzie z latarni gazowych, popełnił głupie błędyI zapytał naszego kolegę, Seana Hollistera, czy chce zobaczyć futrzane porno. Częściowo będzie to spowodowane sposobem, w jaki Microsoft zaimplementował GPT-4, ale te doświadczenia dają pewne wyobrażenie o tym, w jaki sposób chatboty zbudowane na tych modelach językowych mogą popełniać błędy.

W rzeczywistości widzieliśmy już, jak GPT-4 popełnił kilka błędów w swoich pierwszych testach. W The New York Timesna przykład, system jest proszony o wyjaśnienie, jak wymawia się popularne hiszpańskie słowa… i prawie każde z nich jest błędne. (Zapytałem go jednak, jak wymawia się „gringo”, a jego wyjaśnienie zdawało się pasować.)

To nie jest jakiś wielki problem, ale przypomnienie tego, co wszyscy zaangażowani w tworzenie i wdrażanie GPT-4 i innych modeli językowych już wiedzą: psują. Bardzo. Każde wdrożenie, czy to w charakterze korepetytora, sprzedawcy czy programisty, musi być opatrzone wyraźnym ostrzeżeniem.

CEO OpenAI, Sam Altman rozmawialiśmy o tym w styczniu zapytany o możliwości niezapowiedzianego wówczas GPT-4: „Ludzie błagają o rozczarowanie i tak się stanie. Szum jest taki, jak… Nie mamy rzeczywistego AGI i tego się od nas oczekuje.

Cóż, nie ma jeszcze AGI, ale system, który ma szersze możliwości niż wcześniej. Teraz czekamy na najważniejszą część: zobaczyć dokładnie, jak i gdzie będzie używany.

Source link

Co nowego w GPT-4 — od przetwarzania zdjęć po testy

Może przetwarzać obrazy obok tekstu

Lepiej bawi się językiem

Może przetworzyć więcej tekstu

Może zdać testy

Jest już używany w głównych produktach

Cały czas napędza nowy Bing

Wciąż popełnia błędy

Więcej

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

Podobne

Najnowsze

Ujawnienie X-Men ’97 Bastion pokazuje, że największym zagrożeniem dla ludzkości jest sztuczna inteligencja

Nowy odtwarzacz Stream Deck i mikrofon Wave wśród pięciu produktów ogłoszonych przez Elgato

Dynabook wprowadza na rynek Hyperlight 14-calowy laptop Portégé X40L-M z procesorami Intel Core Ultra i wydajną integracją AI

Co nowego w GPT-4 — od przetwarzania zdjęć po testy

Może przetwarzać obrazy obok tekstu

Lepiej bawi się językiem

Może przetworzyć więcej tekstu

Może zdać testy

Jest już używany w głównych produktach

Cały czas napędza nowy Bing

Wciąż popełnia błędy

Więcej

Ujawnienie X-Men ’97 Bastion pokazuje, że największym zagrożeniem dla ludzkości jest sztuczna inteligencja

Nowy odtwarzacz Stream Deck i mikrofon Wave wśród pięciu produktów ogłoszonych przez Elgato

Dynabook wprowadza na rynek Hyperlight 14-calowy laptop Portégé X40L-M z procesorami Intel Core Ultra i wydajną integracją AI

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

Podobne

Kolejna recenzja Crab’s Treasure: wesoła, przystępna wersja Dark Souls

Najnowsze

Ujawnienie X-Men ’97 Bastion pokazuje, że największym zagrożeniem dla ludzkości jest sztuczna inteligencja

Nowy odtwarzacz Stream Deck i mikrofon Wave wśród pięciu produktów ogłoszonych przez Elgato

Dynabook wprowadza na rynek Hyperlight 14-calowy laptop Portégé X40L-M z procesorami Intel Core Ultra i wydajną integracją AI