Naukowcy z laboratorium uczenia maszynowego OpenAI mają odkryty że ich najnowocześniejszy komputerowy system wizyjny można pokonać za pomocą narzędzi nie bardziej wyrafinowanych niż długopis i podkładka. Jak pokazano na powyższym obrazku, po prostu zapisanie nazwy obiektu i przyklejenie jej do innego może wystarczyć, aby oszukać oprogramowanie, aby błędnie zidentyfikowało to, co widzi.
„Nazywamy te ataki jako typograficzny ataki, ”Piszą naukowcy OpenAI w post na blogu. „Wykorzystując zdolność modelu do rzetelnego czytania tekstu, okazuje się, że nawet zdjęcia odręcznego tekstu mogą często oszukać model”. Zauważają, że takie ataki są podobne do „Kontrowersyjne obrazy” które mogą oszukać komercyjne systemy wizyjne, ale są znacznie prostsze w produkcji.
Negatywne obrazy stanowią realne zagrożenie dla systemów, które opierają się na widzeniu maszynowym. Naukowcy wykazali na przykład, że mogą oszukać oprogramowanie autonomicznych samochodów Tesli zmienić pas bez ostrzeżenia po prostu umieszczając określone naklejki na drodze. Takie ataki stanowią poważne zagrożenie dla różnych zastosowań sztucznej inteligencji, od medycyny po wojsko.
Ale niebezpieczeństwo, jakie stwarza ten konkretny atak, nie jest, przynajmniej na razie, niczym się nie martwić. Omawiane oprogramowanie OpenAI to eksperymentalny system o nazwie CLIP, który nie jest wdrażany w żadnym produkcie komercyjnym. Rzeczywiście, sama natura niezwykłej architektury uczenia maszynowego CLIP stworzyła słabość, która umożliwia powodzenie tego ataku.
CLIP ma na celu zbadanie, w jaki sposób systemy AI mogą nauczyć się identyfikować obiekty bez ścisłego nadzoru poprzez szkolenie na ogromnych bazach danych zawierających pary obrazów i tekstu. W tym przypadku OpenAI wykorzystał około 400 milionów par obraz-tekst zeskrobanych z Internetu do uczenia CLIP, który był odsłonięty w styczniu.
W tym miesiącu badacze OpenAI opublikowali nowy artykuł opisujący, w jaki sposób otworzyli CLIP, aby zobaczyć, jak działa. Odkryli to, co nazywają „neuronami multimodalnymi” – poszczególne komponenty w sieci uczenia maszynowego, które reagują nie tylko na obrazy obiektów, ale także na powiązany tekst. Jednym z powodów, dla których jest to ekscytujące, jest to, że wydaje się odzwierciedlać, w jaki sposób ludzki mózg reaguje na bodźce, gdzie zaobserwowano pojedyncze komórki mózgowe reagowanie na abstrakcyjne pojęcia zamiast konkretnych przykładów. Badania OpenAI sugerują, że systemy AI mogą internalizować taką wiedzę w taki sam sposób, jak robią to ludzie.
W przyszłości może to doprowadzić do powstania bardziej wyrafinowanych systemów wizyjnych, ale obecnie takie podejście jest w powijakach. Podczas gdy każdy człowiek może odróżnić jabłko od kawałka papieru z napisem „jabłko”, oprogramowanie takie jak CLIP tego nie potrafi. Ta sama zdolność, która pozwala programowi łączyć słowa i obrazy na abstrakcyjnym poziomie, tworzy tę wyjątkową słabość, którą OpenAI określa jako „błąd abstrakcji”.
Innym przykładem podanym przez laboratorium jest neuron w CLIP, który identyfikuje skarbonki. Ten komponent nie tylko reaguje na zdjęcia skarbonek, ale także ciągi znaków dolara. Jak w powyższym przykładzie, oznacza to, że możesz oszukać CLIP-a, aby zidentyfikował piłę łańcuchową jako skarbonkę, jeśli nałożysz na nią ciągi „$$$”, tak jakby była za pół ceny w lokalnym sklepie z narzędziami.
Naukowcy odkryli również, że multimodalne neurony CLIP zakodowały dokładnie taki rodzaj błędów, jakich można się spodziewać, pozyskując dane z Internetu. Zauważają, że neuron określający „Bliski Wschód” jest również powiązany z terroryzmem i odkryli „neuron, który odpala zarówno dla ludzi o ciemnej karnacji, jak i goryli”. To powiela niesławny błąd w Google system rozpoznawania obrazu, co oznaczało Czarnych jako goryle. To kolejny przykład tego, jak różni się inteligencja maszynowa od inteligencji ludzi – i dlaczego oddzielenie tej pierwszej od siebie, aby zrozumieć, jak działa, jest konieczne, zanim powierzymy swoje życie sztucznej inteligencji.