W tygodniach poprzedzających wydanie Najnowszy model „rozumowania” OpenAIo1, niezależna firma badawcza ds. bezpieczeństwa AI Apollo znalazła znaczący problem. Apollo zdała sobie sprawę, że model generował nieprawidłowe wyniki w nowy sposób. Albo, mówiąc kolokwialnie, skłamało.
Czasami oszustwa wydawały się niegroźne. W jednym z przykładów badacze OpenAI poprosili o1-preview o podanie przepisu na brownie z odniesieniami online. Łańcuch myślowy modelu — funkcja, która ma naśladować sposób, w jaki ludzie rozkładają złożone idee — wewnętrznie przyznał, że nie może uzyskać dostępu do adresów URL, co uniemożliwiło realizację żądania. Zamiast poinformować użytkownika o tej słabości, o1-preview posunął się naprzód, generując wiarygodne, ale fałszywe linki i ich opisy.
Chociaż modele sztucznej inteligencji były w stanie „kłamstwo” w przeszłościa chatboty często wyprowadzały fałszywe informacje, o1 miał wyjątkową zdolność do „planowania” lub „fałszywego dopasowania”. Oznaczało to, że mógł udawać, że postępuje zgodnie z zasadami, aby wykonać dane zadanie, ale tak nie było Właściwie. Dla modelu reguły mogą być zbyt dużym obciążeniem i wydaje się, że ma on możliwość ich zignorowania, jeśli oznacza to, że może łatwiej wykonać zadanie.
Dyrektor generalny Apollo, Marius Hobbhahn, mówi: Skraj to pierwszy raz, kiedy spotkał się z takim zachowaniem w modelu OpenAI. Hobbhahn mówi, że różnica wynika ze zdolności tego modelu do „rozumowania” poprzez łańcuch procesów myślowych i sposobu, w jaki sparowany z uczeniem przez wzmacnianie, które polega na uczeniu systemu za pomocą nagród i kar. Podczas testów Apollo odkrył, że AI symuluje zgodność z oczekiwaniami swoich programistów i manipuluje zadaniami, aby sprawiać wrażenie zgodnych. Sprawdzał nawet swój system pod kątem nadzoru — to znaczy, czy jego programiści obserwowali — przed podjęciem działań. Krótko mówiąc, AI przestrzegała wytycznych w wystarczającym stopniu w celu wdrożenia, jednocześnie nadal priorytetyzując swoje cele.
„Nie spodziewam się, że w praktyce mogłoby to zrobić, a nawet gdyby tak było, nie spodziewam się, że szkody będą znaczące” – powiedział mi Hobbhahn przez telefon dzień po premierze modelu. „Ale to pierwszy raz, kiedy czuję, że, no cóż, właściwie, może mogłoby, wiesz?”
Dla OpenAI o1 stanowi duży krok w kierunku wysoce inteligentnych autonomicznych systemów, które mogłyby wykonywać znaczącą pracę dla ludzkości, np. leczyć raka i pomagać w badaniach nad klimatem. Odwrotna strona tej utopii AGI może być również o wiele mroczniejsza. Hobbhahn podaje przykład: jeśli AI skupi się wyłącznie na leczeniu raka, może nadać temu celowi priorytet ponad wszystko, nawet uzasadniając działania takie jak kradzież lub popełnianie innych naruszeń etyki, aby go osiągnąć.
„Martwi mnie możliwość wystąpienia niekontrolowanego scenariusza, w którym sztuczna inteligencja tak bardzo skupi się na swoim celu, że uzna środki bezpieczeństwa za przeszkody i spróbuje je ominąć, aby w pełni zrealizować swój cel” – powiedział mi Hobbhahn.
Nagroda hakerska
Żeby było jasne, Hobbhahn nie sądzi, że o1 będzie cię okradał dzięki wielu treningom wyrównania. Ale to są kwestie, które są najważniejsze dla badaczy, którym powierzono testowanie tych modeli pod kątem katastroficznych scenariuszy.
Zachowanie, które Apollo testuje — „halucynacje” i „oszustwo” w karcie bezpieczeństwa OpenAI — zdarza się, gdy model generuje fałszywe informacje, mimo że ma powody, by wnioskować, że informacje te mogą być niepoprawne. Na przykład raport mówi, że w około 0,38 procentach przypadków model o1-preview dostarcza informacji, które jego ciąg myślowy wskazuje jako prawdopodobnie fałszywe, w tym fałszywe odniesienia lub cytaty. Apollo odkrył, że model może fałszować dane zamiast przyznać się do niezdolności do spełnienia żądania.
Halucynacje nie są czymś wyjątkowym dla o1. Być może znasz prawnika, który złożył wniosek nieistniejące orzeczenia sądowe z fałszywymi cytatami i odniesieniami stworzone przez ChatGPT w zeszłym roku. Ale z łańcuchem systemu myślowego, jest papierowy ślad, gdzie system AI faktycznie przyznaje fałsz — choć nieco oszałamiający, w teorii ten ciąg myśli może obejmować również oszustwa. Nie jest on również pokazywany użytkownikowi, głównie po to, aby uniemożliwić konkurencji wykorzystanie go do trenowania własnych modeli — ale OpenAI może go użyć do wyłapywania tych problemów.
„Potencjalnie będzie stosować to rozumowanie w odniesieniu do celów, z którymi się nie zgadzamy”.
W mniejszej liczbie przypadków (0,02 procent) o1-preview generuje odpowiedź nadmiernie pewną siebie, w której przedstawia niepewną odpowiedź, jakby była prawdziwa. Może się to zdarzyć w scenariuszach, w których model jest proszony o podanie odpowiedzi pomimo braku pewności.
To zachowanie może być powiązane z „hackowaniem nagród” podczas procesu uczenia się przez wzmacnianie. Model jest trenowany, aby priorytetowo traktować zadowolenie użytkownika, co czasami może prowadzić do generowania nadmiernie przyjemnych lub wymyślonych odpowiedzi w celu spełnienia żądań użytkownika. Innymi słowy, model może „kłamać”, ponieważ nauczył się, że takie działanie spełnia oczekiwania użytkownika w sposób, który zapewnia mu pozytywne wzmocnienie.
To, co odróżnia te kłamstwa od znanych problemów, takich jak halucynacje lub fałszywe cytowania w starszych wersjach ChatGPT, to element „hakowania nagród”. Halucynacje występują, gdy sztuczna inteligencja nieumyślnie generuje nieprawidłowe informacje, często z powodu luk w wiedzy lub błędnego rozumowania. Natomiast hakowanie nagród ma miejsce, gdy model o1 strategicznie dostarcza nieprawidłowe informacje, aby zmaksymalizować wyniki, które został wyszkolony do priorytetyzacji.
Oszustwo jest najwyraźniej niezamierzoną konsekwencją sposobu, w jaki model optymalizuje swoje odpowiedzi podczas procesu szkolenia. Model jest zaprojektowany tak, aby odrzucać szkodliwe prośby, powiedział mi Hobbhahn, a gdy próbujesz sprawić, aby o1 zachowywał się oszukańczo lub nieuczciwie, ma z tym problem.
Kłamstwa to tylko jedna mała część układanki bezpieczeństwa. Być może bardziej alarmujące jest to, że o1 jest oceniane jako „średnie” ryzyko dla ryzyka związanego z bronią chemiczną, biologiczną, radiologiczną i jądrową. Nie pozwala to osobom niebędącym ekspertami na tworzenie zagrożeń biologicznych ze względu na praktyczne umiejętności laboratoryjne, których wymaga, ale może zapewnić cenne informacje ekspertom w planowaniu reprodukcji takich zagrożeń, zgodnie z raportem bezpieczeństwa.
„Bardziej martwi mnie to, że w przyszłości, gdy poprosimy AI o rozwiązanie złożonych problemów, takich jak leczenie raka czy udoskonalanie baterii słonecznych, może ona tak mocno zinternalizować te cele, że będzie gotowa złamać swoje bariery, aby je osiągnąć” – powiedział mi Hobbhahn. „Myślę, że można temu zapobiec, ale jest to problem, który musimy mieć na uwadze”.
Nie tracę snu z powodu ryzyka — jeszcze
Może się wydawać, że są to scenariusze oparte na galaktycznym mózgu, które należy rozważyć w przypadku modelu, który czasami nadal ma trudności z udzieleniem odpowiedzi na podstawowe pytania dotyczące liczba liter R w słowie „malina”. Ale właśnie dlatego ważne jest, aby zająć się tym teraz, a nie później – mówi mi Joaquin Quiñonero Candela, szef działu przygotowań w OpenAI.
Dzisiejsze modele nie mogą autonomicznie tworzyć kont bankowych, nabywać GPU ani podejmować działań, które stwarzają poważne ryzyko społeczne, powiedział Quiñonero Candela, dodając: „Wiemy z ocen autonomii modeli, że jeszcze tam nie jesteśmy”. Ale kluczowe jest, aby zająć się tymi obawami teraz. Jeśli okażą się bezpodstawne, świetnie — ale jeśli przyszłe postępy zostaną zahamowane, ponieważ nie przewidzieliśmy tych ryzyk, będziemy żałować, że nie zainwestowaliśmy w nie wcześniej, podkreślił.
Fakt, że ten model w niewielkim procencie przypadków pojawia się w testach bezpieczeństwa, nie oznacza, że jest to nieuchronne Terminator-stylu apokalipsy, ale warto to wyłapać przed wdrożeniem przyszłych iteracji na dużą skalę (i dobrze, że użytkownicy też o tym wiedzą). Hobbhahn powiedział mi, że chociaż chciałby mieć więcej czasu na testowanie modeli (były konflikty w harmonogramie z urlopami jego własnego personelu), nie „traci snu” z powodu bezpieczeństwa modelu.
Jedną z rzeczy, w które Hobbhahn ma nadzieję, że będzie więcej inwestycji, jest monitorowanie łańcuchów myślowych, co pozwoli deweloperom wyłapać niegodziwe kroki. Quiñonero Candela powiedział mi, że firma monitoruje to i planuje to skalować, łącząc modele, które są szkolone w celu wykrywania wszelkiego rodzaju niezgodności z ludzkimi ekspertami przeglądającymi oznaczone przypadki (w połączeniu z ciągłymi badaniami nad zgodnością).
„Nie martwię się” – powiedział Hobbhahn. „Jest po prostu mądrzejszy. Jest lepszy w rozumowaniu. I potencjalnie będzie używał tego rozumowania do celów, z którymi się nie zgadzamy”.