Nowy artykuł odsuwa studium Apple LLM „Rozumowanie”


Ostatni artykuł badawczy AI Apple, „Iluzja myślenia”, Faluje fale ze względu na swoje tępe wnioski: nawet najbardziej zaawansowane duże modele rozumowania (LRMS) zawalają się na złożonych zadaniach. Ale nie wszyscy zgadzają się z tym ramą.

Dzisiaj Alex Lawsen, badacz z Open Philanthropy, opublikował szczegółowy obalenie, argumentując, że wiele z najbardziej chwytliwych odkryć Apple sprowadza się do eksperymentalnych wad projektowych, a nie podstawowych limitów rozumowania. Artykuł przypisuje również model Claude Opus Antropic jako współautor.

Obalenie: mniej „iluzji myślenia”, więcej „iluzji oceny”

Krytyka Lawsen, trafnie zatytułowana „Iluzja iluzji myślenia”Nie zaprzecza, że ​​dzisiejsze LRMS zmagają się ze złożonymi zagadkami planowania. Ale twierdzi, że papier Apple dezorientuje praktyczne ograniczenia wyjściowe i wadliwe konfiguracje oceny z faktyczną awarią rozumowania.

Oto trzy główne problemy, które podnosi prawu:

  1. Limity budżetowe tokena zostały zignorowane w interpretacji Apple:
    W momencie, w którym Apple twierdzi, że modele „upadek” na łamigłówkach Hanoi z 8+ dyskami, modele takie jak Claude już uderzały w swoje sufity wyjściowe. PRAWSEN wskazuje na prawdziwe wyjścia, w których modele wyraźnie stwierdzają: „Wzór kontynuuje, ale zatrzymam się tutaj, aby zapisać tokeny”.
  2. Niemożliwe puzzle zostały uznane za niepowodzenia:
    Test przekraczania rzeki Apple podobno obejmował nierozwiązywalne instancje układanki (na przykład 6+ aktor/agenta o pojemności łodzi, które matematycznie nie mogą przetransportować wszystkich przez rzekę pod danymi ograniczeniami). Prawo zwraca uwagę na fakt, że modele zostały ukarane za uznanie tego i odmowę ich rozwiązania.
  3. Skrypty ewaluacyjne nie rozróżniają awarii rozumowania od obcięcia wyjściowego:
    Apple stosowało zautomatyzowane rurociągi, które oceniały modele wyłącznie na podstawie pełnych, wymienionych list ruchów, nawet w przypadkach, w których zadanie przekroczy limit tokena. Lawsen twierdzi, że ta sztywna ocena niesprawiedliwie sklasyfikowała częściowe lub strategiczne wyniki jako całkowite awarie.

Alternatywne testy: Zamiast tego zapisz model modelu

Aby poprzeć swój punkt, Lawsen reeran podzbiór wieży testów Hanoi przy użyciu innego formatu: proszenie modeli o wygenerowanie rekurencyjnej funkcji LUA, która drukuje rozwiązanie zamiast wyczerpujące wymienianie wszystkich ruchów.

Reklama

Wynik? Modele takie jak Claude, Gemini i Openai’s O3 nie miały problemu z tworzeniem algorytmicznie poprawnych rozwiązań problemów Hanoi z 15-dyskową, daleko poza złożonością, w której Apple zgłosiło zerowy sukces.

Wniosek Prawa: Po usunięciu sztucznych ograniczeń wyjściowych LRM wydają się doskonale zdolny do rozumowania zadań o dużej kompleksowości. Przynajmniej pod względem generowania algorytmu.

Dlaczego ta debata ma znaczenie

Na pierwszy rzut oka może to zabrzmieć jak typowe badacze AI. Ale stawki tutaj są większe. Papier Apple był powszechnie cytowany jako dowód, że dzisiejsze LLM zasadniczo brakuje skalowalnej zdolności rozumowania, co, jak argumentowałem Tutajmogłoby nie być najwyraźniejszym sposobem na opracowanie badania.

Raintal Lawsen sugeruje, że prawda może być bardziej dopracowana: tak, LLM walczą z długim tokerem wyliczania tokenów w ramach aktualnych ograniczeń wdrażania, ale ich silniki rozumujące mogą nie być tak kruche, jak sugeruje oryginalny artykuł. Lub jeszcze lepiej, tylu powiedział to implikowało.

Oczywiście nic z tego nie pozwala LRMS z haczyka. Nawet Lawsen przyznaje, że prawdziwe algorytmiczne uogólnienie pozostaje wyzwaniem, a jego ponowne testy są nadal wstępne. On przedstawia także sugestie dotyczące tego, na jakie przyszłość działa na ten temat, mogą chcieć się skupić:

  1. Oceny projektowe, które rozróżniają możliwości rozumowania i ograniczeń wyjściowych
  2. Sprawdź rozwiązanie zagadek przed oceną wydajności modelu
  3. Użyj wskaźników złożoności, które odzwierciedlają trudność obliczeniową, a nie tylko długość roztworu
  4. Rozważ wiele reprezentacji rozwiązań w celu oddzielenia zrozumienia algorytmicznego od wykonania

Nie chodzi o to, czy LRMS może rozumować, ale czy nasze oceny mogą odróżnić rozumowanie od pisania.

Innymi słowy, jego podstawowy punkt jest jasny: zanim ogłosimy rozumowanie martwego po przyjeździe, warto dwukrotnie sprawdzić standardy, według których jest to mierzone.

H/T: Fabrício Carraro.

FTC: Używamy dochodów z automatycznych linków partnerskich. Więcej.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Dzień trzeci Prim Day 2025 Oferty są tak samo dobre jak pierwszy dzień

Amazon Prime Day Zwykle jest sprintem - dwa gorączkowe dni ofert pioruna, przepełnione koszyki na zakupy i wystarczającą liczbę zakładek przeglądarki, aby rozbić...

MSI Bundles Wuchang: Fallen Feathers z wybranymi modelami PSU Velox i MEG

MSI jest podekscytowany zespołem z 505 gier i meczami Leenzee, aby uzyskać specjalną ofertę o ograniczonym czasie! Od 10 lipca do 10 sierpnia...

Pełen funkcji Aqary G410 Video Doorbell jest już dostępny

Następca Aqary popularny dzwonek do drzwi G4 jest teraz dostępne do kupienia. 129,99 USD G410, Ogłoszone w styczniupozostaje jednym z niewielu (tylko?) dzwonków...
Advertisment