Kunstmatige intelligentie kan spraak genereren uit neurale activiteit

Onderzoekers gebruiken een terugkerend neuraal netwerk om mensen te helpen die verlamd zijn en niet kunnen communiceren.
Het netwerk zet de neurale activiteit om in spraakakoestiek.
Het kan patiënten helpen om onbeperkte woordenschat te communiceren met een natuurlijk spreektempo.

Veel neurologische aandoeningen leiden tot verlies van communicatie, waardoor patiënten volledig afhankelijk zijn van hulpmiddelen. Met deze apparaten kunnen ze zinnen teken voor teken typen met een snelheid van maximaal 10 woorden per minuut. Deze snelheid is echter te laag in vergelijking met alledaagse gesprekken die plaatsvinden met ongeveer 150 woorden per minuut.

Om veel hogere of zelfs natuurlijke communicatiesnelheden mogelijk te maken, hebben onderzoekers van de Universiteit van Californië, San Francisco, een biomimetische benadering gebruikt die de nadruk legt op de bewegingen van het stemkanaal en het geluid dat ze produceren.

Ze hebben aangetoond dat het mogelijk is om gesynthetiseerde spraak rechtstreeks uit hersensignalen te genereren. Deze signalen coördineren nauwkeurig ongeveer 100 spieren om de lippen, tong, kaak en strottenhoofd te bewegen, waardoor de adem wordt gevormd tot geluiden die uiteindelijk woorden en zinnen vormen.

Het team registreerde high-density elektrocorticografiesignalen van 5 deelnemers die werden behandeld voor epilepsie (een neurologische aandoening). Alle deelnemers werden gevraagd om zinnen hardop voor te lezen, terwijl elektroden op het oppervlak van hun hersenen de resulterende signalen meten.

Terugkerend neuraal netwerk

De onderzoekers ontwikkelden een terugkerend neuraal netwerk om corticale signalen te decoderen met een expliciete intermediaire representatie van de articulatorische dynamiek, en uiteindelijk hoorbare spraak te synthetiseren.

Referentie:Natuur | DOI:10.1038/s41586-019-1119-1 | UC San Francisco

Het neurale netwerk wordt getraind op het geluid van de deelnemers die zinnen hardop uitspreken, samen met de corticale signalen. Ze gebruikten ADAM-optimizer om het algoritme te trainen. Voor de eerste en tweede fase van de training werd een batchgrootte van respectievelijk 256 en 25 gebruikt.

Het gestapelde diepe encoder-decodernetwerk nam expliciet de hersensignalen op om het primaire fysiologische correlaat van neurale activiteit te decoderen en transformeerde het vervolgens in spraakakoestiek. Het is geoptimaliseerd om de akoestiek rechtstreeks vanaf de elektroden te decoderen.

Spraaksynthese uit neuraal gedecodeerde gesproken zinnen | Met dank aan onderzoekers

Deze statistische mapping maakt generalisatie mogelijk met beperkte trainingsgegevenssets. De onderzoekers waren in staat om bevredigende prestaties te bereiken met 25 minuten spraak, en de prestaties verbeterden voortdurend naarmate ze meer gegevens invoerden.

Wat nu?

De studie presenteert een geavanceerde methode om een groot obstakel aan te pakken dat wordt gevormd door patiënten die lijden aan neurologische aandoeningen. Volgens de generalisatieresultaten delen sprekers een vergelijkbare kinematische representatie van de toestandsruimte, die onafhankelijk is van de spreker. De modelkennis - mapping van kinematica naar geluid tussen deelnemers - kan worden overgedragen.

Door gebruik te maken van deze laagdimensionale weergave van neurale activiteit van verschillende mensen, zou het leren van hersen-computerinterfaces kunnen worden vergemakkelijkt. De bevindingen kunnen nieuwe deuren openen voor het realiseren van spraakherstel voor patiënten met verlamming.

Lezen:AI kan onderzoekspapers lezen en een duidelijke Engelse samenvatting geven

Het neurale netwerk dat in deze studie is ontwikkeld, biedt de mogelijkheid om onbeperkte vocabulaires met een natuurlijke spreeksnelheid te communiceren. Deze benadering van directe spraaksynthese legt prosodische elementen van spraak vast, inclusief toonhoogte-intonatie, die niet beschikbaar zijn bij tekstuitvoer. Bovendien kan het gemakkelijker en intuïtiever zijn om het te leren gebruiken voor patiënten bij wie de corticale verwerking van articulatie nog intact is.

Een geavanceerd koelsysteem voor computers en batterijen AI onthult waar neuronen in het visuele systeem van de hersenen het liefst naar kijken

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie