Nowy system bezpieczeństwa Microsoftu może wychwytywać halucynacje w aplikacjach AI swoich klientów


Opowiada Sarah Bird, dyrektor ds. produktu ds. odpowiedzialnej sztucznej inteligencji w Microsoft Krawędź w wywiadzie, że jej zespół zaprojektował kilka nowych funkcji bezpieczeństwa, które będą łatwe w użyciu dla klientów platformy Azure, którzy nie zatrudniają grup czerwonych pracowników do testowania zbudowanych przez nich usług AI. Microsoftu twierdzi, że te narzędzia oparte na LLM mogą wykrywać potencjalne luki w zabezpieczeniachmonitoruj halucynacje „prawdopodobne, ale nieobsługiwane” i blokuj w czasie rzeczywistym złośliwe monity dla klientów platformy Azure AI pracujących z dowolnym modelem hostowanym na platformie.

„Wiemy, że nie wszyscy klienci mają dogłębną wiedzę na temat ataków typu „wstrzykiwanie” lub treści nienawistnych, dlatego system oceny generuje podpowiedzi potrzebne do symulacji tego typu ataków. Klienci mogą następnie uzyskać wynik i zobaczyć wyniki” – mówi.

Trzy funkcje: Szybkie tarczektóry blokuje natychmiastowe wstrzyknięcia lub złośliwe podpowiedzi z dokumentów zewnętrznych, które instruują modele, aby postępowały wbrew ich szkoleniu; Wykrywanie uziemienia, który wyszukuje i blokuje halucynacje; I oceny bezpieczeństwa, które oceniają luki w zabezpieczeniach modelu, są teraz dostępne w wersji zapoznawczej na platformie Azure AI. Wkrótce pojawią się dwie inne funkcje umożliwiające kierowanie modeli w stronę bezpiecznych wyników i monity śledzenia w celu oznaczania potencjalnie problematycznych użytkowników.

Niezależnie od tego, czy użytkownik wpisuje monit, czy model przetwarza dane pochodzące od osób trzecich, system monitorowania oceni je, aby sprawdzić, czy zawiera jakieś zakazane słowa lub czy zawiera ukryte podpowiedzi, zanim zdecyduje się wysłać je do modelki w celu udzielenia odpowiedzi. Następnie system analizuje reakcję modela i sprawdza, czy model nie miał halucynacyjnych informacji, których nie ma w dokumencie lub monicie.

W przypadku obrazów Google Gemini filtry wprowadzone w celu zmniejszenia odchyleń przyniosły niezamierzone skutki i w tym obszarze Microsoft twierdzi, że narzędzia Azure AI pozwolą na bardziej spersonalizowaną kontrolę. Bird przyznaje, że istnieją obawy, że Microsoft i inne firmy mogą decydować, co jest odpowiednie, a co nie w przypadku modeli sztucznej inteligencji, dlatego jej zespół dodał klientom platformy Azure możliwość przełączania filtrowania mowy nienawiści lub przemocy, które model widzi i blokuje.

W przyszłości użytkownicy Azure może również uzyskać raport o użytkownikach którzy próbują wyzwolić niebezpieczne wyjścia. Bird twierdzi, że pozwala to administratorom systemu dowiedzieć się, którzy użytkownicy stanowią własny zespół czerwonych członków drużyny, a którzy mogą być osobami o bardziej złośliwych zamiarach.

Reklama

Bird twierdzi, że funkcje bezpieczeństwa są natychmiast „dołączane” do GPT-4 i innych popularnych modeli, takich jak Llama 2. Jednak ponieważ ogród modeli platformy Azure zawiera wiele modeli sztucznej inteligencji, użytkownicy mniejszych, rzadziej używanych systemów typu open source mogą być zmuszeni do ręcznego wskazywania zabezpieczeń funkcje do modeli.



Source link

Advertisment

Więcej

Advertisment

Podobne

Advertisment

Najnowsze

Przyjrzyj się projektowi renowacji wentylatora Terminatora 2

Terminator 2: Dzień Sądu był – i dla niektórych jest – wzorcem bombastycznych filmów akcji po premierze w 1991 roku, ale wielu jego...

Doskonałe słuchawki douszne QC Ultra firmy Bose osiągają najniższy poziom w historii

Jeśli poprzeczka dla słuchawek dousznych z redukcją szumów wydaje się obecnie wysoka, dzieje się tak dlatego, że Bose i Sony wydają się ją...

Challengers i 7 Days in Hell Andy’ego Samberga są dziwnie podobne

Czasami może wydawać się zaskakujące, że tenis nie jest inspiracją dla kolejnych filmów. Jego starcia gladiatorów jeden na jednego są...
Advertisment