Kiedy Apple po raz pierwszy uruchomiło Siri w 2011 roku iPhone’a 4Sfirma stworzyła serię bardzo przekonujących reklam pokazujących, jak można wykorzystać ten nowatorski asystent głosowy. Na jednym Zooey Deschanel pyta telefon o dostawę zupy pomidorowej; w innym John Malkovich prosi o egzystencjalne rady życiowe. Jest też taki, na którym Martin Scorsese przerzuca harmonogram z tyłu nowojorskiej taksówki. Pokazywały przypomnienia, pogodę, alarmy i nie tylko. Celem reklam było to, że Siri była użytecznym, stałym towarzyszem, który poradzi sobie ze wszystkim, czego potrzebujesz. Nie są potrzebne żadne aplikacje ani dotknięcia. Po prostu zapytaj.
Siri było dla Apple wielką sprawą. Podczas wydarzenia inaugurującego 4S Phil Schiller z Apple powiedział, że Siri to najlepsza funkcja nowego urządzenia. „Przez dziesięciolecia technolodzy dokuczali nam, marząc, że będzie można rozmawiać z technologią, a ona zrobi wszystko za nas” – powiedział. „Ale to nigdy się nie sprawdza!” Powiedział, że jedyne, czego naprawdę chcemy, to rozmawiać z naszym urządzeniem w dowolny sposób oraz uzyskiwać informacje i pomoc. W chwili klasycznej brawury Apple’a Schiller oznajmił, że Apple go rozwiązało.
Jabłko nie rozwiązał go. W ciągu 13 lat od pierwszego uruchomienia Siri stała się dla większości ludzi albo sposobem na ustawienie timerów, albo bezużyteczną funkcją, której należy unikać za wszelką cenę. Z Siri było źle już od dawna, na tyle długo, że przez lata wydawało się, że Apple albo o niej zapomniał, albo po prostu wolał udawać, że jej nie ma.
Ale w przyszłym tygodniu na WWDC, jeśli pogłoski i raporty okażą się prawdziwe, być może będziemy mieli okazję po raz pierwszy spotkać prawdziwą Siri — lub przynajmniej coś znacznie bliższego temu. Według Bloomberga, New York Timesai innych, Apple zaprezentuje ogromną modernizację asystenta, dzięki której Siri będzie bardziej niezawodna dzięki dużym modelom językowym, ale bez wielu nowych funkcjonalności. Nawet to byłoby zwycięstwem. Ale wydaje się, że Apple również pracuje nad wersją Siri, która to zrobi i może być prawie gotowa do uruchomienia faktycznie integrują się z aplikacjami, co oznacza, że asystent może w Twoim imieniu podjąć działania na Twoim urządzeniu. Przynajmniej teoretycznie wszystko, co możesz zrobić na telefonie, Siri może wkrótce zrobić za Ciebie.
To oczywiście była wizja Siri przez cały czas. Można to nawet zobaczyć w reklamach iPhone’a 4S: te gwiazdy proszą Siri o pomoc, a Siri prawie nigdy nie kończy swojej pracy. Dostarcza Deschanel listę restauracji, które wspominają o dostawie, ale nie oferuje możliwości zamówienia czegokolwiek ani pokazywania menu. Informuje Scorsese, że są korki, ale nie przekierowuje go na inną trasę – i czy nie powinien już wiedzieć, że spóźni się na spotkanie? Siri mówi Malkovichowi, żeby był miły dla ludzi i czytał dobrą książkę, ale nie oferuje żadnej praktycznej pomocy. Jak dotąd korzystanie z Siri przypomina posiadanie wirtualnego asystenta, którego jedynym zadaniem jest przeglądanie za Ciebie rzeczy w Google. To jest coś! Ale to niewiele.
Niemożności Siri były tym bardziej frustrujące, że wszystko, co musi być przydatne, jest właśnie tam, na Twoim telefonie. Kiedy chcę pizzę, dlaczego Siri nie może sprawdzić mojego e-maila pod kątem potwierdzenia ostatniego zamówienia, otworzyć DoorDash, wprowadzić tego samego zamówienia, zapłacić jedną z kart w moim Apple Wallet i mieć to za sobą? Jeśli mam pracowity dzień na poziomie Scorsese, Siri wydaje się być tuż obok wszystkich moich kontaktów, mojego Slacka, mojej poczty e-mail i wszystkiego, czego potrzebuje, aby szybko przenosić rzeczy w moim imieniu. Gdyby Siri mogła przejąć kontrolę nad moim telefonem jak jedno z tych narzędzi zdalnego dostępu, które pozwala komuś innemu przesuwać kursor na komputerze, byłoby to nie do zatrzymania.
Są naprawdę dwa powody, dla których Siri nigdy nie wykorzystała w ten sposób swojego potencjału. Pierwsza jest prosta: podstawowa technologia nie była wystarczająco dobra. Jeśli korzystałeś z Siri, wiesz, jak często błędnie słyszy nazwy, źle rozumie polecenia i wraca do „oto kilka rzeczy, które znalazłem w Internecie”, podczas gdy ty chciałeś tylko odtworzyć podcast. W tym miejscu duże modele językowe są niewątpliwie bardzo ekscytujące, ponieważ widzieliśmy, o ile lepsze są narzędzia do zamiany mowy na tekst, takie jak Whisper, i o ile szerzej modele te mogą rozumieć język. Nie są idealne, ale stanowią ogromną poprawę w stosunku do tego, co mieliśmy wcześniej — dlatego też Amazon jest taki przestawienie Alexy na LLM i Asystent Google jest opanowany przez Bliźnięta.
Drugim powodem, dla którego Siri nigdy do końca nie działała, jest po prostu to, że ani Apple, ani zewnętrzni programiści nigdy nie wymyślili, jak to zrobić powinien praca. Skąd masz wiedzieć, co potrafi Siri i jak o to zapytać? W jaki sposób programiści mają zintegrować Siri? Nawet teraz, jeśli chcesz dodać zadanie do aplikacji z listą zadań do wykonania, Siri nie może po prostu dowiedzieć się, której aplikacji używasz. Musisz powiedzieć, Hej Siri, przypomnij mi o podlaniu trawy w Todoist, co jest dziwnym zdaniem, które nie ma sensu i z mojego doświadczenia wynika, że i tak w połowie przypadków zawodzi. Jeśli chcesz wykonać akcję wieloetapową, jedyną opcją jest grzebanie w Skrótach, które są bardzo potężnym narzędziem, ale nie wymagają pisania kodu. Dla większości ludzi to za dużo.
Sztuczna inteligencja może również dać Apple szansę na zakończenie całego problemu. Jej badacze opublikował artykuł na początku tego roku szczegółowo opisując system o nazwie Ferret-UI, który wykorzystuje model sztucznej inteligencji do zrozumienia drobnych szczegółów obrazu na ekranie. Badacze szczegółowo opisują nawet, jak może działać ogólna aplikacja korzystająca z Siri: GPT-4 OpenAI dobrze radzi sobie z ogólnym zrozumieniem, czym jest obraz, a Ferret jest w stanie zrozumieć małe obszary i szczegóły. W praktyce może to oznaczać, że jeden z systemów powie: „To jest aplikacja Ticketmaster!” a drugi mówi: „Tutaj jest przycisk kup”.
Powinniśmy być sceptyczni w stosunku do wszelkich twierdzeń, jakie Apple formułuje wobec Siri. Ponad dziesięć lat temu Schiller stanął na scenie i oznajmił, że Apple zbudował lepszego asystenta głosowego, a tak się nie stało. To samo może być prawdą teraz, ponieważ szum wokół sztucznej inteligencji nadal rozwija się znacznie szybciej niż rzeczywista technologia. Humane, Rabbit, Google i inne firmy pracują nad podobnymi pomysłami — „agent” jest modne hasło z lato w świecie AI — i nikt jeszcze nie pokazał, że jest ona gotowa.
Ale jeśli Apple coś tutaj złamał, może to być pierwszy raz, kiedy zobaczymy prawdziwą Siri – Siri, którą obiecano nam wiele lat temu. Być może w następnej reklamie zupa pomidorowa Deschanel w magiczny sposób pojawi się w jej domu, a aplikacja Headspace uruchomi się, by zapewnić Malkovichowi wewnętrzny spokój. Może w końcu otrzymamy Siri, o której Apple zawsze marzyło.