Ostatni artykuł badawczy AI Apple, „Iluzja myślenia”, Faluje fale ze względu na swoje tępe wnioski: nawet najbardziej zaawansowane duże modele rozumowania (LRMS) zawalają się na złożonych zadaniach. Ale nie wszyscy zgadzają się z tym ramą.
Dzisiaj Alex Lawsen, badacz z Open Philanthropy, opublikował szczegółowy obalenie, argumentując, że wiele z najbardziej chwytliwych odkryć Apple sprowadza się do eksperymentalnych wad projektowych, a nie podstawowych limitów rozumowania. Artykuł przypisuje również model Claude Opus Antropic jako współautor.
Obalenie: mniej „iluzji myślenia”, więcej „iluzji oceny”
Krytyka Lawsen, trafnie zatytułowana „Iluzja iluzji myślenia”Nie zaprzecza, że dzisiejsze LRMS zmagają się ze złożonymi zagadkami planowania. Ale twierdzi, że papier Apple dezorientuje praktyczne ograniczenia wyjściowe i wadliwe konfiguracje oceny z faktyczną awarią rozumowania.
Oto trzy główne problemy, które podnosi prawu:
- Limity budżetowe tokena zostały zignorowane w interpretacji Apple:
W momencie, w którym Apple twierdzi, że modele „upadek” na łamigłówkach Hanoi z 8+ dyskami, modele takie jak Claude już uderzały w swoje sufity wyjściowe. PRAWSEN wskazuje na prawdziwe wyjścia, w których modele wyraźnie stwierdzają: „Wzór kontynuuje, ale zatrzymam się tutaj, aby zapisać tokeny”. - Niemożliwe puzzle zostały uznane za niepowodzenia:
Test przekraczania rzeki Apple podobno obejmował nierozwiązywalne instancje układanki (na przykład 6+ aktor/agenta o pojemności łodzi, które matematycznie nie mogą przetransportować wszystkich przez rzekę pod danymi ograniczeniami). Prawo zwraca uwagę na fakt, że modele zostały ukarane za uznanie tego i odmowę ich rozwiązania. - Skrypty ewaluacyjne nie rozróżniają awarii rozumowania od obcięcia wyjściowego:
Apple stosowało zautomatyzowane rurociągi, które oceniały modele wyłącznie na podstawie pełnych, wymienionych list ruchów, nawet w przypadkach, w których zadanie przekroczy limit tokena. Lawsen twierdzi, że ta sztywna ocena niesprawiedliwie sklasyfikowała częściowe lub strategiczne wyniki jako całkowite awarie.
Alternatywne testy: Zamiast tego zapisz model modelu
Aby poprzeć swój punkt, Lawsen reeran podzbiór wieży testów Hanoi przy użyciu innego formatu: proszenie modeli o wygenerowanie rekurencyjnej funkcji LUA, która drukuje rozwiązanie zamiast wyczerpujące wymienianie wszystkich ruchów.
Wynik? Modele takie jak Claude, Gemini i Openai’s O3 nie miały problemu z tworzeniem algorytmicznie poprawnych rozwiązań problemów Hanoi z 15-dyskową, daleko poza złożonością, w której Apple zgłosiło zerowy sukces.
Wniosek Prawa: Po usunięciu sztucznych ograniczeń wyjściowych LRM wydają się doskonale zdolny do rozumowania zadań o dużej kompleksowości. Przynajmniej pod względem generowania algorytmu.
Dlaczego ta debata ma znaczenie
Na pierwszy rzut oka może to zabrzmieć jak typowe badacze AI. Ale stawki tutaj są większe. Papier Apple był powszechnie cytowany jako dowód, że dzisiejsze LLM zasadniczo brakuje skalowalnej zdolności rozumowania, co, jak argumentowałem Tutajmogłoby nie być najwyraźniejszym sposobem na opracowanie badania.
Raintal Lawsen sugeruje, że prawda może być bardziej dopracowana: tak, LLM walczą z długim tokerem wyliczania tokenów w ramach aktualnych ograniczeń wdrażania, ale ich silniki rozumujące mogą nie być tak kruche, jak sugeruje oryginalny artykuł. Lub jeszcze lepiej, tylu powiedział to implikowało.
Oczywiście nic z tego nie pozwala LRMS z haczyka. Nawet Lawsen przyznaje, że prawdziwe algorytmiczne uogólnienie pozostaje wyzwaniem, a jego ponowne testy są nadal wstępne. On przedstawia także sugestie dotyczące tego, na jakie przyszłość działa na ten temat, mogą chcieć się skupić:
- Oceny projektowe, które rozróżniają możliwości rozumowania i ograniczeń wyjściowych
- Sprawdź rozwiązanie zagadek przed oceną wydajności modelu
- Użyj wskaźników złożoności, które odzwierciedlają trudność obliczeniową, a nie tylko długość roztworu
- Rozważ wiele reprezentacji rozwiązań w celu oddzielenia zrozumienia algorytmicznego od wykonania
Nie chodzi o to, czy LRMS może rozumować, ale czy nasze oceny mogą odróżnić rozumowanie od pisania.
Innymi słowy, jego podstawowy punkt jest jasny: zanim ogłosimy rozumowanie martwego po przyjeździe, warto dwukrotnie sprawdzić standardy, według których jest to mierzone.
H/T: Fabrício Carraro.
FTC: Używamy dochodów z automatycznych linków partnerskich. Więcej.