De nieuwe AI van Google lokaliseert individuele stemmen in drukke omgevingen

Google ontwikkelt een nieuwe AI die zich kan concentreren op een bepaalde stem in een druk gebied.
Het gebruikt een combinatie van zowel visuele als auditieve signalen om de stemmen te scheiden.
De technologie heeft ook de potentie om een beter video-ondertitelingssysteem te bieden voor overlappende sprekers, door spraakherkenning vooraf te verwerken.

Mensen zijn uitzonderlijk goed in het kiezen van een bepaalde stem in een drukke omgeving en het dempen van alle andere geluiden. Dit blijft echter een zware uitdaging voor machines. Ze zijn nog steeds niet goed in het scheiden van individuele spraak wanneer twee of meer mensen praten, of in de aanwezigheid van achtergrondgeluid.

Nu heeft Google een audiovisueel model ontwikkeld op basis van deep learning dat zich kan concentreren op een enkel audiosignaal uit een mix van stemmen en achtergrondgeluiden. De AI kan de video analyseren en de stemmen van bepaalde mensen verbeteren, terwijl alle andere geluiden worden onderdrukt.

Er is geen speciaal audio- of videoformaat vereist; het werkt op alle gangbare videoformaten met één audiotrack. De gebruiker kan een bepaald gezicht selecteren in een video waarnaar hij/zij wil luisteren, of het algoritme dit laten doen op basis van context.

De technologie maakt gebruik van een combinatie van zowel visuele als auditieve signalen van een video om de stemmen te scheiden. Algoritmen kunnen identificeren welke persoon momenteel spreekt op basis van de bewegingen van zijn/haar mond. Deze visuele signalen verbeteren de kwaliteit van de spraakscheiding in gemengde spraak aanzienlijk en associëren geluidssporen met zichtbare sprekers.

Hoe wordt het gemaakt?

Ingenieurs verzamelden een enorme hoeveelheid kwaliteitsvolle YouTube-video's van talkshows en lezingen om trainingsvoorbeelden te produceren. Vervolgens filterden ze 2000 uur aan clips uit deze video's. De gefilterde video met een zuivere stem:geen publieksgeluid, gemengde muziek en achtergrondinterferentie.

Vervolgens gebruikten ze deze inhoud om een combinatie van gezichtsvideo's te maken met de bijbehorende spraak en achtergrondgeluiden uit verschillende bronnen. Ze trainden een multi-stream convolutioneel neuraal netwerk om de stemmen van individuele sprekers te scheiden van video met gemengde spraak.

Zowel de spectrogramrepresentatie van de soundtrack als de gezichtsminiaturen van luidsprekers in elk frame (geëxtraheerd uit video) worden in het neurale netwerk ingevoegd. Het netwerk leert geleidelijk (trainingsperiode) hoe auditieve en visuele signalen kunnen worden gecodeerd en samengevoegd om één audiovisuele inhoud te creëren.

In de tussentijd leert het netwerk ook tijd-frequentiemaskers te bieden voor individuele sprekers. Vervolgens vermenigvuldigt het de luidruchtige invoerspectrogrammen tot maskers, om een zuivere spraak uit te voeren, terwijl interferentie en ruis worden onderdrukt.

Implementatiedetails

Het netwerk is geïmplementeerd op TensorFlow (open source machine learning framework) en de bewerkingen ervan worden gebruikt om golfvormen en korte Fourier-transformaties uit te voeren. Alle netwerklagen, met uitzondering van de maskerlaag, worden gevolgd door activaties van Rectified Linear Unit.

Batchnormalisatie wordt uitgevoerd voor alle convolutionele lagen. Hiervoor gebruikten ze een batchgrootte van 6 monsters en trainden ze voor 5 miljoen batches (stappen). Audio wordt opnieuw gesampled naar 16 KHz en stereoaudio wordt omgezet in mono om de korte Fourier-transformatie te berekenen.

Referentie:arXiv:1804.03619 | Google Onderzoek

Alle gezichtsinsluitingen worden vóór de training opnieuw gesampled naar 25 frames per seconde, wat resulteerde in een visuele invoerstroom van 75 gezichtsinsluitingen. Ze gebruikten nulvectoren wanneer ontbrekende frames werden aangetroffen in een specifiek monster.

Toepassingen

De technologie kan talloze toepassingen hebben, van audioherkenning in video's tot spraakverbetering, vooral wanneer meerdere mensen aan het woord zijn. Het zou de soorten microfoons verbreden die in verschillende audio-omgevingen kunnen worden gebruikt. Maar voorlopig lijken YouTube en Hangouts twee gemakkelijke plaatsen om te beginnen. Uiteindelijk zou het kunnen worden toegepast op stemversterkende oordopjes en Google Glasses.

Lezen:Google ontwikkelt stem-AI die niet van mensen te onderscheiden is | Tacotron 2

Ook heeft de techniek het potentieel om een beter video-ondertitelingssysteem te bieden voor overlappende sprekers, door spraakherkenning voor te verwerken. Deze functie zou het voor dove mensen gemakkelijker maken om deel te nemen aan teleconferenties en van filmvideo's te genieten.

Door kwantum gegenereerde willekeurige getallen stellen een nieuwe nauwkeurigheidsnorm PRISM-techniek doorbreekt lichtdiffractielimieten voor live-celbeeldvorming in ruimte en tijd

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie