Jest nowy Apple Research Paper z rundami, a jeśli widziałeś reakcje, można by pomyśleć, że po prostu przewrócił całą branżę LLM. Jest to dalekie od prawd, chociaż może to być najlepsza próba wniesienia do głównego nurtu dyskusji, którą społeczność ML prowadzi od wieków. Oto dlaczego ten artykuł ma znaczenie.
Artykuł, o którym mowa, Złudzenie myślenia: zrozumienie mocnych i ograniczeń modeli rozumowania za pomocą soczewki złożoności problemuz pewnością jest interesujący. Systematycznie sonduje tak zwane duże modele rozumowania (LRM), takie jak Claude 3.7 i Deepseek-R1 za pomocą kontrolowanych puzzli (wieża Hanoi, bloków itp.), Zamiast standardowych punktów odniesienia matematyki, które często cierpią na zanieczyszczenie danych.
Wyniki? LRM radzą sobie lepiej niż ich kuzynki LLM w zadaniach o średniej złożoności, ale tak samo zawalają się na bardziej złożonych. Co gorsza, ponieważ zadania stają się coraz trudniejsze, te „rozumowanie” modele zaczynają myśleć mniej, nie więcej, nawet jeśli nadal mają do stracenia budżet tokena.
Ale chociaż ten artykuł pojawia się na pierwszych stronach gazet, jakby po prostu ujawnił głęboki sekret, argumentowałbym: nic z tego nie jest nowe. Jest to teraz wyraźniejsze i łatwiejsze dla szerszej publiczności do zrozumienia. To w rzeczywistości świetna wiadomość.
Co pokazuje papier
Nagłówkiem jest to, że modele sprzedawane z „rozumowania” nadal zawodzą w przypadku problemów, które może opanować dziecko. Na przykład w wieży Hanoi modele takie jak Claude i O3-Mini rozpadają się po siedmiu lub ośmiu dyskach. I nawet jeśli otrzyma dokładny algorytm rozwiązania i poproszony o po prostu śledzenie go, wydajność się nie poprawia.
Innymi słowy, nie są one rozumujące, ale raczej iteracyjnie rozszerzające wzorce wnioskowania LLM w bardziej skomplikowany sposób. To rozróżnienie ma znaczenie i jest to prawdziwa wartość papieru jabłkowego. Autorzy odpychają załadowane terminy, takie jak „rozumowanie” i „myślenie”, które sugerują symboliczne wnioskowanie i planowanie, kiedy to, co się faktycznie dzieje, jest tylko rozszerzeniem wzorca warstwowego: model uruchamia wiele wnioskowania, aż wyląduje na czymś, co brzmi prawdopodobne.
To nie jest dokładnie objawienie. Yann Lecun, szef AI Meta, długo porównywany Dzisiejsze LLMS do „House Cats” i głośno było, że AGI nie pochodzi z Transformers. Subbarao Kambhampati Od lat publikuje o tym, że „łańcuchy myśli” nie odpowiadają, w jaki sposób te modele faktycznie obliczają. I Gary MarcusCóż, jego długotrwała teza „Głębokie uczenie się uderza w ścianę”, dostaje kolejne pióro w czapce.
Dopasowanie wzoru, nie rozwiązywanie problemów
Najbardziej potępiającym punktem danych badania może być następujący: Gdy złożoność wzrośnie, modele dosłownie przestają próbować. Zmniejszają własne wewnętrzne „myślenie” jako skali wyzwań, mimo że pozostało mnóstwo budżetu obliczeniowego. To nie jest tylko techniczna porażka, ale raczej konceptualna.
Artykuł Apple pomaga wyjaśnić, że wiele LLM nie zawodzi, ponieważ „nie trenowały wystarczająco” lub „po prostu potrzebują więcej danych”. Padają, ponieważ zasadniczo nie mają sposobu na reprezentowanie i wykonanie logiki algorytmicznej krok po kroku. I to nie jest coś, co przemyślenia lub wzmocnienie, które dostrajanie może być brutalne.
Cytując sam artykuł: „LRMS nie używa jawnych algorytmów i niekonsekwentnie uzasadnionego rozumu”. Nawet po wręczeniu planu rozwiązania się potykają.
Więc… czy to zła wiadomość?
Tak. Po prostu nie nowy aktualności.
Wyniki te nie są wielką niespodzianką dla nikogo głęboko osadzonych w społeczności badawczej ML. Ale szum, którego wygenerowali, podkreśla coś bardziej interesującego: Woder Public może wreszcie być gotowy do zmagania się z rozróżnieniami, które świat ML robi od lat, szczególnie wokół tego, jak te modele mogą i żargon Do.
To rozróżnienie jest ważne. Kiedy ludzie nazywają te systemy „myśląc”, zaczynamy traktować je tak, jakby mogli zastąpić rzeczy, których obecnie nie są w stanie zrobić. Wtedy halucynacje i niepowodzenia logiczne przechodzą z interesujących dziwactw do niebezpiecznych ślepych miejsc.
Właśnie dlatego ma znaczenie Apple. Nie dlatego, że „odsłonięto” LLM, ale dlatego, że pomaga rysować wyraźniejsze linie wokół tego, czym są, a co nie. I ta jasność jest już dawno spóźniona.
FTC: Używamy dochodów z automatycznych linków partnerskich. Więcej.