Facebook ontwikkelt AI die in staat is om ieders stem te kopiëren met ongekende nauwkeurigheid

Het nieuwe deep learning-model met de naam MelNet kan menselijke intonatie met griezelige nauwkeurigheid produceren.
Eenmaal getraind, kan het de stem van iedereen binnen een paar seconden regenereren.
Onderzoekers laten zien hoe het precies de stem van Bill Gates kan klonen.

Er zijn de afgelopen jaren enorme vorderingen gemaakt op het gebied van machine learning-technieken. Deze technieken hebben heel goed gewerkt bij het herkennen van objecten, gezichten en het genereren van realistische afbeeldingen.

Als het op audio aankomt, is kunstmatige intelligentie echter een teleurstelling. Zelfs de beste tekst-naar-spraaksystemen missen de basisfuncties, zoals veranderingen in intonatie. Heb je de door een machine gegenereerde stem van Stephen Hawking gehoord? Soms wordt het heel moeilijk om zijn zinnen te begrijpen.

Nu hebben wetenschappers van Facebook AI Research een methode ontwikkeld om de beperkingen van bestaande tekst-naar-spraak-systemen te overwinnen. Ze hebben een generatief model gebouwd - MelNet genaamd - dat menselijke intonatie met griezelige nauwkeurigheid kan produceren. Het kan zelfs vloeiend spreken met ieders stem.

Hoe verschilt MelNet van bestaande machinespraak?

De meeste deep learning-algoritmen zijn getraind in grote audiodatabases om echte spraakpatronen te regenereren. Het belangrijkste probleem met deze methode is het type gegevens. Meestal worden deze algoritmen getraind op audiogolfvormopnames, die complexe structuren hebben op drastisch variërende tijdschalen.

Deze opnames laten zien hoe de amplitude van geluid met de tijd varieert:één seconde audio bevat tienduizenden tijdstappen. Dergelijke golfvormen weerspiegelen bepaalde patronen op een aantal verschillende schalen.

Bestaande generatieve modellen van golfvormen (zoals SampleRNN en WaveNet) kunnen zich slechts een fractie van een seconde voortplanten. Daarom kunnen ze de structuur op hoog niveau niet vastleggen op de schaal van enkele seconden.

MelNet daarentegen gebruikt spectrogrammen (in plaats van audiogolfvormen) om deep learning-netwerken te trainen. Spectrogrammen zijn 2D-tijd-frequentierepresentaties die het hele spectrum van audiofrequenties laten zien en hoe deze met de tijd variëren.

Spectrogram- en golfvormpatronen van dezelfde audiocontent van 4 seconden

Terwijl 1D-tijddomeingolfvormen de verandering in de tijd van één variabele (amplitude) vastleggen, leggen spectrogrammen de verandering over verschillende frequenties vast. Audio-informatie wordt dus dichter opeengepakt in spectrogrammen.

Hierdoor kan MelNet onvoorwaardelijke spraak- en muzieksamples produceren met een consistentie van enkele seconden. Het is ook in staat tot voorwaardelijke spraakgeneratie en tekst-naar-spraaksynthese, volledig end-to-end.

Referentie:arXiv:1906.01083 | GitHub

Om informatieverlies te verminderen en over-smoothing te beperken, hebben ze respectievelijk spectrogrammen met hoge resolutie gemodelleerd en een zeer expressief autoregressief model gebruikt.

Resultaten zijn indrukwekkend

Onderzoekers hebben MelNet getraind in talloze Ted-talks en het was vervolgens in staat om de stem van de spreker binnen een paar seconden te regenereren door willekeurige zinnen te zeggen. Hieronder staan twee voorbeelden van MelNet die de stem van Bill Gates gebruikt om willekeurige zinnen te zeggen.

https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

"Port is een sterke wijn met een rokerige smaak."

https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

"We fronsen onze wenkbrauwen als gebeurtenissen een slechte wending nemen."

Er zijn meer voorbeelden beschikbaar op GitHub.

Hoewel MelNet opmerkelijk levensechte audioclips maakt, kan het geen langere zinnen of alinea's genereren. Toch zou het systeem de interactie tussen computer en mens kunnen verbeteren.

Veel gesprekken met de klantenservice bevatten korte zinnen. MelNet kan worden gebruikt om dergelijke interacties te automatiseren of het huidige geautomatiseerde spraaksysteem te vervangen om de bellerervaring te verbeteren.

Lezen:Facebook AI converteert muziek van de ene stijl naar de andere

Ten negatieve:de technologie wekt het schrikbeeld van een nieuw tijdperk van nep-audio-inhoud. En net als andere ontwikkelingen op het gebied van kunstmatige intelligentie, roept het meer ethische vragen op dan het beantwoordt.

Nieuwe elektronische skin kan een mensachtig tastgevoel hebben Wetenschappers ontwikkelen een nieuwe methode om schermen helderder en efficiënter te maken

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie