Google DeepMind-forskere har utviklet en AI-basert modell, kalt video-to-audio (V2A), som kan generere lyd og dialog for videoer. Denne utviklingen representerer et betydelig skritt mot å skape fullstendig audiovisuelle opplevelser ved bruk av kunstig intelligens.
Slik fungerer Googles AI V2A-modell
AI video-to-audio (V2A)-teknologi kan fungere godt med videoer generert av AI-modeller, slik som Googles Veo annonsert på Google I/O 2024. V2A-teknologi fungerer ved å kombinere videoinformasjon med tekstinstruksjoner.
Brukere kan gi ytterligere instruksjoner for å veilede V2A-systemet mot spesifikke lyder de ønsker å lage for en video, og dermed tillate kreativ kontroll over det genererte lydsporet.
«I dag deler vi fremskritt med vår video-til-lyd-teknologi (V2A), som gjør synkronisert audiovisuell generering mulig. V2A kombinerer videopiksler med tekstinstruksjoner på naturlig språk for å generere rike lydlandskap for handling på skjermen,» sa selskapet.
«V2A-teknologien vår kan pares med videogenerasjonsmodeller som Veo for å lage opptak med et dramatisk lydspor, realistiske lydeffekter eller dialog som passer til karakterene og tonen i en video,» la han til.
V2A koder først videoen og bruker deretter en diffusjonsmodell for å avgrense den tilfeldige støyen til realistisk lyd som matcher videoen og eventuelle tekstinstruksjoner. Til slutt blir lyden dekodet og kombinert med videodataene.
Noen brukstilfeller inkluderer generering av lydspor for stille video eller tradisjonelle opptak, inkludert arkivmateriale og stumfilmer.
«For å generere lyd av høyere kvalitet og legge til muligheten til å veilede modellen mot å generere spesifikke lyder, har vi lagt til mer informasjon til treningsprosessen, inkludert AI-genererte kommentarer med detaljerte lydbeskrivelser og talte dialogtranskripsjoner,» sa Google DeepMind.
AI-modellen er trent på video, lyd og tilleggskommentarer som sies å hjelpe den å assosiere spesifikke lydhendelser med forskjellige visuelle scener, samtidig som den reagerer på informasjonen gitt i transkripsjonene.
Begrensninger for AI-modellen
Ifølge forskerne avhenger kvaliteten på den genererte lyden av kvaliteten på videoinngangen, og leppebevegelser i videoer generert av andre modeller samsvarer kanskje ikke perfekt med lydsporet laget av V2A.
Slik fungerer Googles AI V2A-modell
AI video-to-audio (V2A)-teknologi kan fungere godt med videoer generert av AI-modeller, slik som Googles Veo annonsert på Google I/O 2024. V2A-teknologi fungerer ved å kombinere videoinformasjon med tekstinstruksjoner.
Brukere kan gi ytterligere instruksjoner for å veilede V2A-systemet mot spesifikke lyder de ønsker å lage for en video, og dermed tillate kreativ kontroll over det genererte lydsporet.
«I dag deler vi fremskritt med vår video-til-lyd-teknologi (V2A), som gjør synkronisert audiovisuell generering mulig. V2A kombinerer videopiksler med tekstinstruksjoner på naturlig språk for å generere rike lydlandskap for handling på skjermen,» sa selskapet.
«V2A-teknologien vår kan pares med videogenerasjonsmodeller som Veo for å lage opptak med et dramatisk lydspor, realistiske lydeffekter eller dialog som passer til karakterene og tonen i en video,» la han til.
V2A koder først videoen og bruker deretter en diffusjonsmodell for å avgrense den tilfeldige støyen til realistisk lyd som matcher videoen og eventuelle tekstinstruksjoner. Til slutt blir lyden dekodet og kombinert med videodataene.
Noen brukstilfeller inkluderer generering av lydspor for stille video eller tradisjonelle opptak, inkludert arkivmateriale og stumfilmer.
«For å generere lyd av høyere kvalitet og legge til muligheten til å veilede modellen mot å generere spesifikke lyder, har vi lagt til mer informasjon til treningsprosessen, inkludert AI-genererte kommentarer med detaljerte lydbeskrivelser og talte dialogtranskripsjoner,» sa Google DeepMind.
AI-modellen er trent på video, lyd og tilleggskommentarer som sies å hjelpe den å assosiere spesifikke lydhendelser med forskjellige visuelle scener, samtidig som den reagerer på informasjonen gitt i transkripsjonene.
Begrensninger for AI-modellen
Ifølge forskerne avhenger kvaliteten på den genererte lyden av kvaliteten på videoinngangen, og leppebevegelser i videoer generert av andre modeller samsvarer kanskje ikke perfekt med lydsporet laget av V2A.
«Ond alkoholelsker. Twitter-narkoman. Fremtidig tenåringsidol. Leser. Matelsker. Introvert. Kaffeevangelist. Typisk baconentusiast.»