Samsung AI kan sprekende beelden maken van één enkele foto

Een nieuw AI-model kan sprekende avatars maken van een enkele afbeelding.
Ontwikkelaars pasten dit model toe op populaire schilderijen, waaronder Leonardo Da Vinci en Mona Lisa.
De resultaten hebben enkele visuele glitches, maar ze zijn veel indrukwekkender dan eerdere technieken.

Software voor het genereren van deepfakes (een op kunstmatige intelligentie gebaseerde techniek voor de synthese van menselijke afbeeldingen) vereist grote sets afbeeldingen om een realistische vervalsing te bouwen. Recente ontwikkelingen in neurale netwerken hebben aangetoond hoe zeer realistische menselijke beelden kunnen worden verkregen door het netwerk te trainen op een breed scala aan datasets.

De ontwikkelaars van het Samsung-onderzoekscentrum in Moskou hebben nu echter een nieuw model voor kunstmatige intelligentie (AI) ontwikkeld dat sprekende avatars kan maken van een enkele afbeelding. Hoewel het mogelijk is om een videoclip te maken van één afbeelding, leidt het trainen door middel van meerdere afbeeldingen tot een betere identificatie en een hoger realisme.

De pratende hoofden die door dit model worden gegenereerd, kunnen verschillende poses aan, waaronder poses die verder gaan dan de mogelijkheden van op warping gebaseerde systemen. U kunt enkele visuele glitches tegenkomen, maar de resultaten zijn indrukwekkend in vergelijking met eerdere technieken. Het model leidt tot de creatie van multimedia die uiteindelijk moeilijk te onderscheiden is van de echte video.

Betrokken uitdagingen

Het fabriceren van realistische pratende avatar-reeksen is vooral om twee redenen moeilijk –

Menselijke hoofden hebben een hoge kinematische, geometrische en fotometrische complexiteit. Het is noodzakelijk om haar, ogen, mondholte en vele andere elementen nauwkeurig te modelleren.
De scherpte van het visuele systeem ten opzichte van kleine fouten in het uiterlijk dat menselijke hoofden modelleert.

Om deze problemen aan te pakken, creëert het nieuwe AI-model drie neurale netwerken tijdens het leerproces. Het bouwt een ingebed netwerk dat gezichtsherkenningskaders verbindt met vectoren. Vervolgens bouwt het een generatornetwerk om oriëntatiepunten in de gesynthetiseerde clips in kaart te brengen. In de laatste stap evalueert het discriminatornetwerk de pose en het realisme van frames.

Referentie:arXiv:1905.08233 | YouTube

Om gezichtsoriëntatiepunten en bewegingen beter te begrijpen, hebben onderzoekers de netwerken getraind op duizenden YouTube-video's van pratende mensen. De uitkomsten (talking heads) werden vervolgens via kwantitatieve metingen vergeleken met alternatieve neurale netwerken.

Resultaten

Het team paste dit model toe op afbeeldingen van veel populaire figuren, zoals Mona Lisa, Leonardo Da Vinci en Albert Einstein. De AI was in staat om pratende video's van één afbeelding te fabriceren, waardoor klassieke portretten tot leven kwamen. Er is maar één foto nodig om video's te maken. Een model dat getraind is op 32 foto's kan echter een betere personalisatiescore en perfect realisme behalen.

Dit type AI kan verschillende praktische toepassingen hebben in telepresence, waaronder games voor meerdere spelers, videoconferenties en speciale effectenindustrieën.

Lezen:IBM ontwikkelt een AI die scènes in een video detecteert

Nadeel is dat de snelle ontwikkeling van dergelijke technieken het risico op verkeerde informatie, nabootsing van identiteit, fraude en geknoei met verkiezingen kan vergroten.

Bosque:de nieuwe programmeertaal van Microsoft zonder lussen Wat is MEMS (Micro-Electro-Mechanical System)? Soorten en toepassingen

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie