Det vil snart bli lettere å se Facebook- og Instagram-innlegg på verdens mindre talte språk, men en ekspert foreslår at for å forbedre Meta-verktøyet, bør det snakke med morsmål.
Det vil snart bli enklere å se Facebook- og Instagram-innlegg på 200 mindre talte språk rundt om i verden.
Metas No Language Left Behind (NLLB)-prosjekt kunngjorde i en artikkel publisert denne måneden at de har utvidet sin originale teknologi.
Prosjektet inkluderer et dusin «ressursfattige» europeiske språk, som skotsk gælisk, galisisk, irsk, lingurisk, bosnisk, islandsk og walisisk.
Ifølge Meta er det et språk som inneholder mindre enn en million setninger med data som kan brukes.
Eksperter sier at for å forbedre tjenesten, bør Meta konsultere morsmål og språkspesialister, siden verktøyet fortsatt trenger forbedring.
Hvordan prosjektet fungerer
Meta trener sin kunstige intelligens (AI) med data fra Opus-depotet, en åpen kildekodeplattform med en samling autentiske muntlige eller skrevne tekster for ulike språk som kan programmere maskinlæring.
Bidragsytere til datasettet er eksperter på naturlig språkbehandling (NLP): undergruppen av AI-forskning som gir datamaskiner muligheten til å oversette og forstå menneskelig språk.
Meta sa at de også bruker en kombinasjon av data hentet fra kilder som Wikipedia i databasene deres.
Dataene brukes til å lage det Meta kaller en flerspråklig språkmodell (MLM), der AI kan oversette «mellom et hvilket som helst par… av språk uten å stole på engelske data,» ifølge nettstedet deres.
NLLB-teamet evaluerer kvaliteten på oversettelsene sine ved å bruke et depot av menneskeoversatte setninger, også åpen kildekode. Dette depotet inneholder en liste over «giftige» ord eller setninger som mennesker kan lære programvaren å filtrere ut når de oversetter tekst.
I følge deres siste artikkel forbedret NLLB-teamet oversettelsesnøyaktigheten med 44 % sammenlignet med deres første modell, publisert i 2020.
Når teknologien er fullt implementert, anslår Meta at det vil være mer enn 25 milliarder oversettelser hver dag på tvers av Facebook News Feed, Instagram og andre plattformer.
«Snakk med folk»
William Lamb, professor i gælisk etnologi og lingvistikk ved University of Edinburgh, er en ekspert på skotsk gælisk, et av lavressursspråkene identifisert av Meta i sitt NLLB-prosjekt.
Rundt 2,5% av Skottlands befolkning, eller rundt 130 000 mennesker, rapporterte i folketellingen for 2022 at de hadde ferdigheter i det keltiske språket fra 1200-tallet.
Det er også rundt 2000 gælisktalende i det østlige Canada, hvor det er et minoritetsspråk. UNESCO klassifiserer dette språket som «truet» med utryddelse på grunn av det lave antallet mennesker som snakker det regelmessig.
Lamb bemerket at Metas skotsk-gæliske oversettelser er «ikke veldig gode ennå», på grunn av samarbeidsdataene de bruker, selv om «hjertet deres er på rett sted».
«Det de burde gjøre … hvis de virkelig ønsker å forbedre oversettelsen er å snakke med folket, de gælisktalende som fortsatt lever og ånder språket,» sa Lamb.
Det er lettere sagt enn gjort, fortsatte Lamb. De fleste som har morsmål er 70 år og bruker ikke datamaskiner, og yngre høyttalere «bruker vanligvis ikke gælisk slik besteforeldrene deres gjorde.»
En god erstatning vil være at Meta inngår en lisensavtale med BBC, som streber etter å bevare språket ved å lage høykvalitets nettinnhold i det.
«Dette må gjøres av spesialister»
Alberto Bugarín-Diz, professor i kunstig intelligens ved Universitetet i Santiago de Compostela i Spania, sier lingvister som Lamb bør samarbeide med store teknologiselskaper for å avgrense datasettene de har.
«Dette må gjøres av spesialister som kan gjennomgå tekstene, rette dem og oppdatere dem med metadata som vi kan bruke,» sa Bugarin-Diz.
«Folk fra human- og teknisk vitenskap som ingeniører må jobbe sammen, det er et reelt behov,» la han til.
Det er en fordel for Meta å bruke Wikipedia, fortsatte Bugarin-Diz, fordi dataene ville reflektere «nesten alle aspekter av menneskelivet», noe som betyr at kvaliteten på språket kan være mye bedre enn bare å bruke tekster.
Men Bugarin-Diz foreslår at Meta og andre AI-selskaper tar seg tid til å finne kvalitetsdata på nettet og deretter gjennomgå de juridiske kravene som trengs for å bruke dem, uten å gå på tvers av lover om immaterielle rettigheter.
Lamb sa i mellomtiden at han ikke ville anbefale folk å bruke det på grunn av feil i dataene med mindre Meta gjør endringer i datasettet deres.
«Jeg vil ikke si at deres oversettelsesevne er på et punkt hvor verktøyene faktisk er nyttige,» sa Lamb.
«Jeg vil ikke oppfordre noen til å bruke pålitelige språkverktøy ennå; jeg tror de vil være ærlige når de sier det også.»
Bugarín-Diz inntar en annen posisjon.
Han mener at hvis ingen bruker Meta-oversettelser, «vil de ikke være villige» til å investere tid og ressurser i å forbedre dem.
I likhet med andre AI-verktøy, mener Bugarin-Diz at det handler om å kjenne svakhetene til teknologien før du bruker den.
«Reiseelsker. Twitter-forsker. Forfatter. Ekstrem kaffeguru. Ond popkulturfanatiker.»