Markedet for chatbots basert på store språkmodeller (LLM), kjerneprogramvaren i et nytt kunstig intelligens (AI)-system, vokser etter hvert som teknologigigantene Google, Microsoft-støttet Open AI og Meta utvider tjenestene sine.
Et nøkkelelement i deres ekspansjonsstrategi er lokaliserte AI-chatbots som støtter språkene i et bestemt land. Forrige uke utvidet Google Gemini-appen sin til India med støtte for ni indiske språk: hindi, bengali, gujarati, kannada, malayalam, marathi, tamil, telugu og urdu.
Klikk her for å koble til oss på WhatsApp
Open AIs ChatGPT gir allerede støtte for 10 indiske språk, i tillegg til engelsk.
Strategien hjelper OpenAI, Google og andre selskaper å få gjennomslag for sine AI-aktiverte samtaleagenter i et språklig mangfoldig land som India. De må støtte lokale språk fordi engelsk forstås av få i landet.
Kjemp mot kunstig intelligens
Bortsett fra globale teknologigiganter, har indiske startups lansert LLM-er på lokale språk. Krutrim, Sarvam, HanoomanGPT er noen av de populære i tillegg til regjeringsledede initiativer som Bhashini, Jugalbandhi av AI4Bharat og andre.
Utfordringen for indiske AI-selskaper er skremmende ettersom de må konkurrere med større aktører med ubegrensede ressurser.
«Hyperskalere bygger og driver store datasentre, investerer i AI-spesifikke brikker og utvikler plattformer tett integrert med disse teknologiene. De driver tjenester som søk, sosiale medier og e-handel, og utnytter store mengder menneskeskapte data for å trene modeller. Indiske LLM-operatører står overfor betydelige utfordringer i å konkurrere med den avanserte teknologien og talentet i Silicon Valley, sier Paramdeep Singh, medgründer av Shorthills AI, en teknologiløsningsplattform.
India har den nest største AI chatbot-brukerbasen etter USA, ifølge estimater.
Indiske LLM-firmaer sier at deres globale rivaler har ressursfordelen, men det ville være vanskelig for dem å forstå den lokale konteksten og designe produkter deretter.
«Globale selskaper besitter enorme ressurser, omfattende datasett og banebrytende teknologi, noe som gir dem et konkurransefortrinn i forhold til mindre indiske selskaper. De nyter også markedstillit, regulatorisk letthet og muligheten til å tiltrekke seg topptalenter. Imidlertid har lokale aktører konsekvent funnet måter å gjøre en betydelig innvirkning på, sier Vishnu Vardhan, grunnlegger av SML India, morselskapet til AI-plattformen HanoomanGPT.
Vardhan sa at i India, hvor det er 22 offisielle språk og 85% av befolkningen ikke snakker engelsk, kan en bred, generisk LLM fra en teknologigigant som Google bare lokaliseres i begrenset grad. «Til tross for fremgang, høres tjenester som kart ofte bedre ut på engelsk enn på hindi eller telugu,» sa han.
Indiske selskaper kan lage LLM-er som virkelig forstår og replikerer hvordan språk brukes i det virkelige liv, i stedet for å stole på oversettelsesmodeller. «Ved å fokusere på disse hyperlokaliserte LLM-ene kan indiske selskaper skape løsninger som resonerer dypere med lokalbefolkningen, utvide markedet for generativ AI og tilby skreddersydde, kulturelt relevante tjenester,» sa han.
Til tross for utfordringen fra giganter som Google og Microsoft, har indiske AI-selskaper sektorspesifikke muligheter.
«Min mening er at det er rom for flere LLM-er i et land som India. Selv om det vil være noen globale LLM-er som ChatGPT og Gemini som vil være alle ting for alle mennesker, er det rikelig med muligheter for å lage LLM-er og SLM-er (små språkmodeller) med fokus på utdanning, helsetjenester eller til og med landjournaler, sa han Bindra, grunnlegger av Tech Whisperer, et teknologikonsulentfirma.
Kjenn nyansene
Indiske AI-selskaper bør fokusere på dialekter, kulturelle nyanser og forståelse av kontekst. «Den viktigste fordelen som lokale operatører har her, er den nyanserte forståelsen av lokale dialekter og betydningen av forskjellige ting for å trene, bygge og teste dem i skala,» sa Rohit Pandharkar, partner, konsulentfirma, Generative AI, EY India.
Pandharkar siterer et eksempel på språklig mangfold og sa: «Marathi-dialekter i Konkan, sentrale Maharashtra og Vidarbha er veldig forskjellige, og det samme vil være de språklige konstruksjonene. Å utarbeide disse nyansene i LLM krever kulturell kontekst, tilgang til et lokalt datakorpus og eksperter som kan overvåke på et høyt nivå hva modellene er trent på.»
Indiske selskaper kan gjøre det bedre med «hyperlokalisering» ettersom få offentlige korpuser og kulturell forståelse av nyansene til språk å trene LLM-er på er tilgjengelig digitalt. LLM-opplæring må gå utover bare å skanne offentlige data eller bare lære av data om brukerinteraksjoner.
Men ettersom lokale datasett digitaliseres og evnen til å generere syntetiske data forbedres, kan de unike fordelene som lokale LLM-operatører nyte, reduseres, sa Pandharkar.
«Derfor, på lang sikt, bør indiske LLM-er og SLM-er gå utover språkkunnskaper og samarbeide med store bedrifter for å utvikle spesialiserte LLM-er skreddersydd for spesifikke bransjer. Ved å integrere proprietære forretningsdata, domenekunnskap og lokale språkvariasjoner, kan de skape et overbevisende verdiforslag.»
Prashanth Kaddi, partner og konsulent i Deloitte India, sa at alle AI-selskaper er utsatt for utfordringer mens de arbeider med lokale språk. Utfordringen inkluderer hallusinasjoner, når en LLM genererer falsk informasjon på grunn av unøyaktige eller ufullstendige data.
«Ond alkoholelsker. Twitter-narkoman. Fremtidig tenåringsidol. Leser. Matelsker. Introvert. Kaffeevangelist. Typisk baconentusiast.»