Når nyhetsutgivere streiker avtaler med AI-selskaper for å trene modellene sine med nyheter, kommer prisen som selskaper som OpenAI er villige til å betale for opphavsrettsbeskyttet informasjon.
Informasjon rapporter at OpenAI tilbyr mellom $1 million og $5 millioner per år for å lisensiere opphavsrettsbeskyttede nyhetsartikler for å trene sine AI-modeller. Dette er en av de første indikasjonene på hvor mye AI-selskaper planlegger å betale for lisensiert maskinvare. Den kommer sammen med en fersk rapport om at Apple ønsker å samarbeide med medieselskaper for å bruke innhold til AI-opplæring og tilbyr minst 50 millioner dollar over en flerårsperiode for dataene. Kanten kontaktet OpenAI for kommentarer til tallene.
Tallene ser omtrent like ut som noen tidligere ikke-AI-lisensavtaler. Da Meta lanserte fanen Facebook News – siden den ble forlatt i Europa – den angivelig tilbudt opptil 3 millioner dollar ett år for å lisensiere nyheter, titler og forhåndsvisninger. Men det er uklart om de totale utbetalingene vil samsvare med noen av de høyeste tallene vi har sett. Google annonsert i 2020 at det vil investere 1 milliard dollar totalt i partnerskap med nyhetsorganisasjoner, for eksempel. Under press fra en ny lov gikk Google også nylig med på å betale kanadiske utgivere totalt 100 millioner dollar i året i bytte for lenker til artiklene deres.
Siden vi vet hva treningsdataene deres inneholder, har dagens store språkmodeller blitt trent primært på informasjon fra Internett. Selv om noen AI-modeller ikke avslører hvordan de skaffet treningsdataene sine, er informasjon ofte tilgjengelig om datasettene eller webcrawlerne som brukes. Prisen på opplæringsdatasett varierer avhengig av leverandøren, størrelsen og innholdet til et datasett. Noen dataleverandører, som LAION, er åpen kildekode og helt gratis og brukes av modeller som Stable Diffusion. AI-utviklere setter også ofte opp webcrawlere som skraper data fra Internett for å hjelpe dem med å trene modellene sine. (AI-utviklere må fortsatt ansette folk for å verifisere, merke og noen ganger rense treningsdata, noe som øker driftskostnadene betydelig.)
Men denne praksisen står nå overfor store utfordringer. På den ene siden har OpenAIs GPT-søkerobot blitt blokkert fra tilgang til data av noen selskaper, inkludert New York Times Og Kantenmorselskapet til Vox Media. På den annen side hevder flere organisasjoner at opplæring på dataene deres utgjør brudd på opphavsretten. New York Times, blant annet saksøkt OpenAI og Microsoft for brudd på opphavsretten, med påstand om at Microsofts ChatGPT og Copilot kan generere nesten ordrett resultater for arbeidet sitt.
Vellykkede partnerskap lar AI-bedrifter unngå disse problemene, og det har blitt en mer vanlig praksis det siste året. Forlag som Axel Springer, morselskapet til Politikk Og Business Insider – Og Associated Press har signert avtaler med OpenAI for å lisensiere historier for å trene modeller som GPT-4 og utvikle teknologi for informasjonsinnsamling.
OpenAI og Apple er ikke de eneste AI-utviklerne som håper å jobbe med nyhetsorganisasjoner. Google skal ha demonstrert et AI-verktøy kalt Genesis som tar fakta og mater nyheter til bedriftsledere New York Times, Wall Street Journal, Og Washington Post. Noen nyhetsorganisasjoner har i mellomtiden brukt generative AI-verktøy i redaksjoner med blandede resultater.
«Reiseelsker. Twitter-forsker. Forfatter. Ekstrem kaffeguru. Ond popkulturfanatiker.»