Najnowszy model AI Google korzysta z przeglądarki internetowej, takiej jak ty


Google podgląda nowy model AI Gemini zaprojektowany do nawigacji i interakcji z siecią za pośrednictwem przeglądarki, pozwalając agentom AI robić rzeczy w interfejsach zaprojektowanych do użytku przez ludzi, a nie robotów. Model, nazywane używanie komputera Gemini 2.5wykorzystuje „wizualne możliwości zrozumienia i rozumowania” do analizy żądania użytkownika i wykonania zadania, takiego jak wypełnienie i przesłanie formularza.

Może być używany do testowania interfejsu użytkownika lub nawigacji interfejsów wykonanych dla osób, które nie mają dostępnego interfejsu API lub innego bezpośredniego połączenia. Inne wersje tego modelu zostały wykorzystane do funkcji agencyjnych w trybie AI i Project Marinerprototyp badawczy, który wykorzystuje agentów AI do samodzielnego wykonywania zadań w przeglądarce, jak dodawanie elementów do koszyka na podstawie listy składników.

Ogłoszenie Google pojawia się zaledwie jeden dzień po ujawnieniu Openai Nowe aplikacje do Chatgpt w ramach corocznego dnia dewelopera i nadal koncentruje się w funkcji agenta Chatgpt To może wykonać złożone zadania w Twoim imieniu. Tymczasem antropijne wydano już Wersja swojego modelu AI Claude z „Komputerem” w zeszłym roku.

Google opublikował kilka filmów demonstracyjnych pokazujących narzędzie do użytku komputerowego w akcji, a zauważa, że ​​są one przyspieszone o 3x.

Google twierdzi, że jego model komputerowy „przewyższa wiodące alternatywy w wielu internach i mobilnych testach porównawczych”. W przeciwieństwie do Agenta CHATGPT i narzędzia do używania komputera Anthropic, nowy model AI Google ma dostęp tylko do przeglądarki – a nie całego środowiska komputerowego. Google zauważa, że ​​pokazuje „nie jest jeszcze zoptymalizowane pod kątem kontroli poziomu systemu operacyjnego” i obecnie obsługuje 13 Działaniaw tym otwarcie przeglądarki internetowej, pisanie tekstu, a także przeciąganie i upuszczanie elementów.

Komputer Gemini 2.5 jest dostępny dla programistów za pośrednictwem Google AI Studio i Vertex AI, ale jest też Demo na przeglądarcegdzie oglądasz, jak wykonuje zadania, takie jak „Play a Game of 2048” lub „Przeglądaj wiadomości hakerów za trendowe debaty”.

Reklama



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Apple podobno zatrudnia szefa strategii podcastów NPR mającego doświadczenie w Spotify

Wygląda na to, że Apple wkrótce powita nowego pracownika w dziale kierownictwa podcastów. Według reportera mediów NYT Bena Mullinaszef strategii podcastów NPR zmierza do...

Jimmy Fallon chce zamienić Wordle’a w program telewizyjny

Jimmy Fallon pomaga tworzyć Wordle na serial telewizyjny, Termin ostateczny Raporty. NBC pilotuje Wordle Game Show z pomocą firmy produkcyjnej Fallon, a program...

Konfigurowalne łańcuchy świetlne Philips Hue są tańsze o 50 USD w październiku Prime Day

Może to październik, ale wakacje nadejdą, zanim się obejrzysz. Jesienny dzień Amazona Wydarzenie właśnie się rozpoczyna, oferując abonentom Prime doskonałą okazję do zaoszczędzenia...
Advertisment