OpenAI wprowadza szerszą dostępność swojego najnowszego generatora zamiany tekstu na obraz. W czwartek firma udostępni klientom ChatGPT Plus i Enterprise nowy model DALL-E 3, który działa w aplikacji ChatGPT. OpenAI twierdzi, że przygotowało zestaw zabezpieczeń dla modelu, dzięki czemu jest on gotowy do rozszerzonej wersji.
DALL-E 3 był po raz pierwszy ogłoszono w zeszłym miesiącu, a OpenAI pokazało, jak poprawiło się w stosunku do poprzedniego DALL-E 2, umożliwiając użytkownikom wykorzystanie ChatGPT do pisania dłuższych i bardziej opisowych wizualnie podpowiedzi w celu zasilania generatora obrazów. DALL-E 3 został dodany do Bing Chat i Bing Image Generator, tworząc platformę Microsoftu jako pierwszy wprowadził szerszy dostęp publiczny do modelu — nawet przed ChatGPT.
Reklamowane poręcze ograniczające szkodliwe obrazy nie zawsze działały, a użytkownicy tworzyli obrazy World Trade Center jako SpongeBob SquarePants i inne postacie samoloty pilotujące w kierunku budynków. Nawet po tym, jak Microsoft zablokował niektóre monity, inne proste obejścia dały podobne rezultaty.
Generatory zamiany tekstu na obraz, takie jak Midjourney, Stable Diffusion i starsze wersje DALL-E, wzbudziły sporo kontrowersji. Dzięki tej technologii udało się uzyskać materiały zawierające obrazy objęte prawami autorskimi, akty wykonane za zgodą osób, osoby o zmienionym pochodzeniu etnicznym oraz fotorealistyczne fałszywe przedstawienia osób publicznych.
OpenAI obiecuje, że tym razem podjęło znacznie szersze kroki i faktycznie tak się stało udostępnienie strony internetowej co pokazuje badania przeprowadzone nad DALL-E 3. Firma twierdzi, że „ograniczy to prawdopodobieństwo generowania przez model treści w stylu żyjących artystów, wizerunków osób publicznych oraz poprawi reprezentację demograficzną w generowanych obrazach”. OpenAI ma również wewnętrzne narzędzie do „klasyfikatora pochodzenia”, które według niego jest w stanie z 99-procentową dokładnością wykryć, czy obraz został wygenerowany przez DALL-E 3.