Generatywny Sztuczna inteligencja systemy są szkolone poprzez umożliwienie im surfowania po sieci w celu zeskrobywania treści. Apple pozwala wydawcom zrezygnować ze skrobania, a nowy raport mówi, że wiele największych witryn internetowych specjalnie zrezygnowało z tej opcji Inteligencja Apple szkolenie.
Dotyczy to zarówno Facebooka, jak i Instagrama, a także wielu popularnych serwisów informacyjnych i medialnych, takich jak New York Times I Atlantyk …
Szkolenie AI firmy Apple
Duże modele językowe, takie jak ChatGPT, są trenowane poprzez udostępnienie im dostępu do milionów słów materiału źródłowego, od artykułów informacyjnych po komentarze użytkowników.
W Jabłko przypadku firma od lat używa Applebota do trenowania Siri i wyświetlania sugestii Spotlight. Niedawno firma używała również Applebota do trenowania Apple Intelligence.
Praktyka ta jest kontrowersyjna, ponieważ AI skutecznie wykorzystują materiały chronione prawem autorskim, aby generować własne wersje. W przypadku bardziej niszowych tematów, gdzie materiał źródłowy jest skąpy, stwierdzono nawet, że regurgitują całe akapity, niemal bez wprowadzania zmian.
Ale Apple robi to w sposób etycznyumożliwiając wydawcom rezygnację i filtrowanie danych osobowych (choć tak było) dać się złapać przez jedno źródło zewnętrzne).
Nasze modele bazowe szkolimy na licencjonowanych danych, w tym danych wybranych w celu ulepszenia określonych funkcji, a także publicznie dostępnych danych zebranych przez naszego web-crawlera, AppleBot. Wydawcy stron internetowych mają możliwość zrezygnowania z używania ich treści internetowych do szkolenia Apple Intelligence za pomocą kontroli wykorzystania danych […]
Stosujemy filtry mające na celu usuwanie danych osobowych, takich jak numery ubezpieczenia społecznego i kart kredytowych, które są publicznie dostępne w Internecie.
Firma Apple wykorzystuje znacznik Applebot-Extended, aby umożliwić witrynom rezygnację ze szkolenia AI, jednocześnie umożliwiając indeksowanie wyszukiwania – co oznacza, że ich treści nadal mogą być uwzględniane w wynikach wyszukiwania Spotlight i Siri.
Wiele dużych wydawców internetowych rezygnuje
Ponieważ rezygnacja odbywa się za pomocą publicznie dostępny plik robots.txtłatwo zobaczyć, które witryny to zrobiły. Przewodowy sprawdziliśmy szereg największych serwisów informacyjnych i mediów społecznościowych.
WIRED może potwierdzić, że Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, sieć USA Today i spółka macierzysta WIRED, Condé Nast, należą do wielu organizacji, które zdecydowały się wykluczyć swoje dane ze szkolenia AI firmy Apple […]
W odrębnej analizie przeprowadzonej w tym tygodniu dziennikarz danych Ben Welsh odkrył, że nieco ponad jedna czwarta przebadanych przez niego witryn informacyjnych (294 z 1167, głównie anglojęzycznych, wydawanych w Stanach Zjednoczonych) blokuje Applebot-Extended.
Applebot-Extended to stosunkowo nowy tag, więc jest prawdopodobne, że więcej witryn również z niego zrezygnuje, gdy tylko wzrośnie świadomość jego istnienia.
Pieniądze są oczywiście jednym z czynników
Uważa się, że Apple zawarło umowy z niektórymi firmami medialnymi, płacąc opłatę w zamian za prawo do korzystania z ich treści do celów szkoleniowych. Prawdopodobnie jest to motywacja przynajmniej niektórych witryn blokujących Apple – oczekujących na ofertę płatności.
„Wiele największych wydawców na świecie wyraźnie stosuje podejście strategiczne” — mówi założyciel Originality AI Jon Gillham. „Myślę, że w niektórych przypadkach jest to strategia biznesowa — na przykład wstrzymanie danych do czasu zawarcia umowy partnerskiej”.
Wersja beta 3 systemu iOS 18.1 zawiera kilka nowych funkcji Apple Intelligence, w tym: Oczyszczanie zdjęć I więcej podsumowań powiadomień.
Zdjęcie autorstwa Kelly McClintock NA Odsłoń
FTC: Używamy linków afiliacyjnych generujących dochód. Więcej.