Nowy system bezpieczeństwa Microsoftu może wychwytywać halucynacje w aplikacjach AI swoich klientów

Opowiada Sarah Bird, dyrektor ds. produktu ds. odpowiedzialnej sztucznej inteligencji w Microsoft Krawędź w wywiadzie, że jej zespół zaprojektował kilka nowych funkcji bezpieczeństwa, które będą łatwe w użyciu dla klientów platformy Azure, którzy nie zatrudniają grup czerwonych pracowników do testowania zbudowanych przez nich usług AI. Microsoftu twierdzi, że te narzędzia oparte na LLM mogą wykrywać potencjalne luki w zabezpieczeniachmonitoruj halucynacje „prawdopodobne, ale nieobsługiwane” i blokuj w czasie rzeczywistym złośliwe monity dla klientów platformy Azure AI pracujących z dowolnym modelem hostowanym na platformie.

„Wiemy, że nie wszyscy klienci mają dogłębną wiedzę na temat ataków typu „wstrzykiwanie” lub treści nienawistnych, dlatego system oceny generuje podpowiedzi potrzebne do symulacji tego typu ataków. Klienci mogą następnie uzyskać wynik i zobaczyć wyniki” – mówi.

Trzy funkcje: Szybkie tarczektóry blokuje natychmiastowe wstrzyknięcia lub złośliwe podpowiedzi z dokumentów zewnętrznych, które instruują modele, aby postępowały wbrew ich szkoleniu; Wykrywanie uziemienia, który wyszukuje i blokuje halucynacje; I oceny bezpieczeństwa, które oceniają luki w zabezpieczeniach modelu, są teraz dostępne w wersji zapoznawczej na platformie Azure AI. Wkrótce pojawią się dwie inne funkcje umożliwiające kierowanie modeli w stronę bezpiecznych wyników i monity śledzenia w celu oznaczania potencjalnie problematycznych użytkowników.

Niezależnie od tego, czy użytkownik wpisuje monit, czy model przetwarza dane pochodzące od osób trzecich, system monitorowania oceni je, aby sprawdzić, czy zawiera jakieś zakazane słowa lub czy zawiera ukryte podpowiedzi, zanim zdecyduje się wysłać je do modelki w celu udzielenia odpowiedzi. Następnie system analizuje reakcję modela i sprawdza, czy model nie miał halucynacyjnych informacji, których nie ma w dokumencie lub monicie.

W przypadku obrazów Google Gemini filtry wprowadzone w celu zmniejszenia odchyleń przyniosły niezamierzone skutki i w tym obszarze Microsoft twierdzi, że narzędzia Azure AI pozwolą na bardziej spersonalizowaną kontrolę. Bird przyznaje, że istnieją obawy, że Microsoft i inne firmy mogą decydować, co jest odpowiednie, a co nie w przypadku modeli sztucznej inteligencji, dlatego jej zespół dodał klientom platformy Azure możliwość przełączania filtrowania mowy nienawiści lub przemocy, które model widzi i blokuje.

W przyszłości użytkownicy Azure może również uzyskać raport o użytkownikach którzy próbują wyzwolić niebezpieczne wyjścia. Bird twierdzi, że pozwala to administratorom systemu dowiedzieć się, którzy użytkownicy stanowią własny zespół czerwonych członków drużyny, a którzy mogą być osobami o bardziej złośliwych zamiarach.

Reklama

Bird twierdzi, że funkcje bezpieczeństwa są natychmiast „dołączane” do GPT-4 i innych popularnych modeli, takich jak Llama 2. Jednak ponieważ ogród modeli platformy Azure zawiera wiele modeli sztucznej inteligencji, użytkownicy mniejszych, rzadziej używanych systemów typu open source mogą być zmuszeni do ręcznego wskazywania zabezpieczeń funkcje do modeli.

Source link

Poprzedni artykuł

PGL bada awarię sterownika karty graficznej GeForce RTX 4080 po zakłóceniu wydarzeń e-sportowych

Następny artykuł

Według doniesień Apple iPad Pro OLED pojawi się w maju

Nowy system bezpieczeństwa Microsoftu może wychwytywać halucynacje w aplikacjach AI swoich klientów

Więcej

Podobne

Najnowsze

Przyjrzyj się projektowi renowacji wentylatora Terminatora 2

Doskonałe słuchawki douszne QC Ultra firmy Bose osiągają najniższy poziom w historii

Challengers i 7 Days in Hell Andy’ego Samberga są dziwnie podobne