Shutterstock

Kunstig intelligens kan efterligne din stemme på blot 3 sekunder

Microsoft har udviklet den kunstige intelligens VALL-E, som kan duplikere din stemme efter kun at have lyttet i tre sekunder.

Udviklingen af kunstige intelligenser, også kaldet AI (engelsk: Artificial Intelligence), har de seneste år fået et nyt gear, og vi bombarderes med intelligente chatbots som ChatGPT og test-til-billede-AI’er som DALL-E

Nu melder Microsoft sig ogs√• p√• banen med en AI, som kan kopiere menneskers stemmer i en uhyggelig detaljeret grad. Og den kan g√łre det ved blot at lytte til en stemmeoptagelse p√• tre sekunder.

Microsofts tekst-til-tale-teknologi, eller TTS (engelsk: text-to-speech), har fået navnet VALL-E, og udviklerne bag AI’en har offentliggjort en forskningsartikel om teknologien på forskningssiden arXiv.

Realistisk gengivelse

Der er udviklet en del AI-algoritmer, som kan lytte til en persons stemme og så bruge dette til at efterligne stemmen ud fra tekst.

Ved de tidligere teknologier har det taget flere minutter eller timers optagelser at skabe en datamængde på flere hundrede giga- og terabyte, som har været solid nok til at skabe en nogenlunde troværdig efterligning.

Og selv herefter har AI‚Äôerne haft sv√¶rt ved at gengive f√łlelser, tonefald og accenter.

Microsofts VALL-E skal blot lytte til en optagelse af en stemme i tre sekunder, og så kan den genskabe en troværdig efterligning ud fra tekst. Udviklerne har allerede lagt demonstrationer op på siden GitHub.

vall-e-proces

S√•dan fungerer VALL-E: Den skal bruge noget tekst, som skal l√¶ses h√łjt (Text Prompt), og s√• skal den bruge 3 sekunders optagelse, af den stemme, der skal l√¶ses h√łjt med (Acoustic Prompt). En algoritme afkoder b√•de tekstens betydning og stemning og samtidig stemmens tonefald og akustik. Dette s√¶ttes sammen til en syntetisk gengivelse af teksten med en personlig stemme.

© Microsoft

Selvom nogle af gengivelserne kan lyde lidt forvrængede, så kan flere af dem være svære at afkode som kunstige.

60.000 timers træning

I skabelsen af VALL-E blev AI’en trænet i 60.000 timers engelsk tale fra mere end 7.000 forskellige stemmer. Disse blev hentet fra IT-virksomheden Metas open source-datasæt Libri-Light, hvor flere af dem er af lydbogsfortællere.

N√•r VALL-E pr√¶senteres for en tekst, den skal l√¶se op, registrerer algoritmen i AI‚Äôen tonefald, akustik, accenter og f√łlelser.

Ved at sætte dette op mod de 60.000 timers læring, kan den gengive en troværdig stemme.

Det betyder, at hvis det lyder som om, en person taler over en telefon, så gengiver VALL-E på samme måde stemmen, så det lyder som om, den kommer fra en telefon.

Og p√• samme m√•de kan den gengive tonefald, f√łlelser og accenter, som lige nu t√¶ller amerikanske, britiske og et par europ√¶isk-klingende accenter.

Teknologien skal blandt andet bruges i en række Microsoft-produkter, men den kan også give personer, der har mistet deres stemme, en mulighed for at få den igen.

Samtidig kan teknologien også misbruges af svindlere, der kan udgive sig for personer over telefonen, eller til at hacke sig ind i andre teknologier, der kræver stemmegenkendelse.

Udviklerne bag VALL-E skriver, at de vil lave forskellige sikkerhedsforanstaltninger, så teknologien bliver svær at misbruge. Og for nu er AI’en endnu ikke tilgængelig for offentligheden.