Od jego oryginalna premiera Na Google I/O 2024 Project Astra stał się podstawą testowania asystenta ambicji AI Google. Multimodalny, wszechstronny bot nie jest tak naprawdę produktem konsumenckim i wkrótce nie będzie dostępny dla nikogo spoza niewielkiej grupy testerów. Zamiast tego reprezentuje Astra, to zbiór największych, najdzikszych i najbardziej ambitnych marzeń Google o tym, co AI może być w stanie zrobić dla ludzi w przyszłości. Greg Wayne, dyrektor ds. Badań w Google Deepmind, mówi, że postrzega Astrę jako „rodzaj samochodu koncepcyjnego uniwersalnego asystenta AI”.
Ostatecznie rzeczy, które działają w Astra, dostarczają Gemini i inne aplikacje. Już teraz obejmowało niektóre prace zespołu nad wyjściem głosowym, pamięcią i niektórymi podstawowymi funkcjami użytkowania komputerowego. Gdy te funkcje stają się głównym nurtem, zespół Astra znajduje coś nowego do pracy.
W tym roku, na konferencji programistów we/wy, Google ogłosił nowe funkcje Astra, które sygnalizują, jak firma przyszła zobaczyć asystenta – i jak mądry może być asystent. Oprócz odpowiedzi na pytania i korzystania z aparatu telefonu, aby pamiętać, gdzie zostawiłeś okulary, Astra może teraz wykonać zadania w Twoim imieniu. I może to zrobić bez ciebie, nawet o to.
Najbardziej imponującą nową funkcją Astry jest nowa proaktywność. „Astra może wybrać, kiedy rozmawiać na podstawie wydarzeń, które widzi” – mówi Wayne. „W rzeczywistości jest to ciągłe, obserwowanie, a potem może komentować”. To wielka zmiana: zamiast wskazać na coś telefonu i zapytać o to asystenta AI, plan Astry polega na tym, że asystent ciągle obserwuje, słuchając i czekając, aż jego moment się wkroczy. i inteligentne okulary. W takim przypadku możesz sobie wyobrazić Jak w szczególności okulary może być przydatne dla asystenta wszechwidzącego i wszechstronnego.)
Plan Astry polega na tym, że asystent nieustannie obserwuje, słuchając i czekając na moment wejścia
Jeśli Astra obserwuje podczas odrabiania lekcji, Wayne oferuje przykład, może to zauważyć, że popełniłeś błąd i wskazałeś, gdzie się pomyliłeś, zamiast czekać, aż skończysz i specjalnie poproś bota o sprawdzenie pracy. Jeśli przerywany jest post, Astra może przypomnieć o jedzeniu tuż przed wyznaczonym czasem – lub delikatnie zastanawiasz się, czy naprawdę powinieneś jeść teraz, biorąc pod uwagę plan diety.
Nauczanie Astry działań z własnej woli było przez cały czas częścią planu, mówi dyrektor generalny DeepMind Demis Hassabis. Nazywa to „czytaniem pokoju” i mówi, że bez względu na to, jak trudno jest uczyć komputera, jest to w rzeczywistości znacznie trudniejsze. Wiedza o tym, jak się zapakować, jaki ton przyjmuje, jak pomóc, a kiedy się zamknąć, jest rzeczą, którą ludzie robią stosunkowo dobrze, ale trudno jest określić kwantyfikację lub studiowanie. A jeśli produkt nie działa dobrze, i zaczyna przesuwać się w sposób bezprzepuszczalny i niechciany? „Cóż, nikt by go nie użył, gdyby to zrobił” – mówi Hassabis. To są stawki.
Naprawdę świetna, proaktywna asystent jest nadal bardzo wolna, ale jedna rzecz, której na pewno będzie wymagać, jest ogromna ilość informacji o Tobie. To kolejna nowa rzecz do Astry: asystent może teraz uzyskać dostęp do informacji z Internetu i innych produktów Google. Może zobaczyć, co jest w twoim kalendarzu, aby powiedzieć ci, kiedy wyjść; Może zobaczyć, co jest w twoim e -mailu, aby wykopać numer potwierdzenia, gdy idziesz do recepcji, aby się zameldować. Przynajmniej taki jest pomysł. W ogóle działało – a potem konsekwentnie i niezawodnie – potrwa trochę czasu.
Ostatni element układanki się łączy: Astra uczy się, jak korzystać z telefonu z Androidem. Bibo Xiu, menedżer produktu w zespole DeepMind, pokazała mi demo, w którym wskazała kamerę telefoniczną na parę słuchawek Sony i zapytała, które są. Astra powiedziała, że to albo WH-1000XM4 lub WH-1000XM3 (i szczerze mówiąc, jak można oczekiwać, że ktokolwiek lub cokolwiek można poznać), a Xiu poprosił Astrę o znalezienie instrukcji, a następnie wyjaśnić, jak je sparować z telefonem. Po tym, jak Astra wyjaśniła, XIU przerwał: „Czy możesz iść naprzód, otworzyć ustawienia i po prostu połączyć dla mnie słuchawki?” Wszystko samo w sobie, Astra właśnie to zrobiła.
Proces ten nie był idealnie bezproblemowy – XIU musiał ręcznie włączyć funkcję, która pozwoliła Astrę zobaczyć ekran jej telefonu. Zespół wciąż pracuje nad tym, aby stało się to automatycznie, mówi: „Ale taki jest cel, że może zrozumieć, co może i nie widzi w tej chwili”. Tego rodzaju zautomatyzowane użycie urządzeń to to samo, nad czym Apple pracuje z Siri nowej generacji, a obie firmy wyobrażają sobie asystenta, który może poruszać się z aplikacjami, poprawić ustawienia, odpowiadać na wiadomości, a nawet grać w gry bez konieczności dotknięcia ekranu. Oczywiście jest to niezwykle trudne do zbudowania: demo XIU było imponujące i było tak proste zadanie, jak możesz sobie wyobrazić. Ale Astra robi postępy.
W tej chwili większość tak zwanych „Agentic AI” nie działa zbyt dobrze lub wcale. Nawet w najlepszym scenariuszu, nadal wymaga to dużo podnoszenia: musisz podać system na każdym kroku, dostarczyć cały dodatkowy kontekst i informacje potrzebne aplikację oraz upewnić się, że wszystko idzie sprawnie. Celem Google jest rozpoczęcie usuwania całej tej pracy, krok po kroku. Chce, aby Astra wiedziała, kiedy jest potrzebna, wiedzieć, co robić, wiedzieć, jak to zrobić, i wiedzieć, gdzie znaleźć, co potrzebuje, aby to zrobić. Każda część tego będzie wymagała przełomów technologicznych, z których większość nikt jeszcze nie dokonał. Następnie pojawią się skomplikowane problemy z interfejsem użytkownika, pytania dotyczące prywatności i więcej problemów.
Jeśli jednak Google lub ktokolwiek zamierza zbudować prawdziwie uniwersalny asystent AI, będzie musiał to zrobić dobrze. „Jest to kolejny poziom inteligencji wymagany, aby móc to osiągnąć”, mówi Hassabis. „Ale jeśli możesz, poczuje się kategorycznie inny niż dzisiejsze systemy. Myślę, że uniwersalny asystent musi mieć to, aby był naprawdę przydatny”.