Ontwerpoverwegingen voor energiezuinige, altijd ingeschakelde spraakopdrachtsystemen
Spraakassistenten en integratie worden geïmplementeerd in de meeste producten, apparaten en technologie die op de markt worden geïntroduceerd. Dat gezegd hebbende, is het geen geheim dat deze handige stemassistenten altijd aan staan om te luisteren naar activerings-/waakwoorden (zoals "oké Google" of "Alexa"), die vaak veel stroom verbruiken. In een wereld waar technologie snel vooruitgaat, is het noodzakelijk om de impact hiervan op het energieverbruik te overwegen.
Dit artikel bevat ontwerpoverwegingen voor energiezuinige, altijd ingeschakelde spraakopdrachtsystemen die gebruikmaken van spraakactiviteitsdetectie (VAD). Het onderzoekt afwegingen en overwegingen bij het kiezen van de componenten die nodig zijn voor het creëren van een gebruiksvriendelijke, energiezuinige spraakgebruikersinterface (VUI).
De VAD-functie detecteert de menselijke stem in de omgeving voordat wordt geluisterd naar een wake-word, wat betekent dat wanneer er niemand thuis is, uw stemassistent geen onnodige energie verspilt. Naar schatting worden er wereldwijd 4,2 miljard digitale spraakassistenten gebruikt, en dit aantal zal naar verwachting in 2024 verdubbelen. De implementatie van deze technologie in spraakassistentsoftware en andere producten die afhankelijk zijn van spraakintegratie, zou het energieverbruik van die assistenten drastisch verlagen. die stemassistenten gebruiken.
Er zijn verschillende hardware-architecturen voor het implementeren van een VUI-systeem. Over het algemeen bestaat een typische implementatie van een spraakgebruikersinterface uit microfoons, ofwel een enkele microfoon of een microfoonarray die is aangesloten op een audioprocessor voor het vastleggen en verwerken van spraak.
De inkomende audiostream kan worden verwerkt op een edge audio edge-processor, een slimme microfoon met ingebouwde audio edge-processor of op een standaard application processor (AP). Edge-audioprocessors zijn geoptimaliseerd voor de verwerking van audiosignalen met laag vermogen en lage latentie. Naast het leveren van gespecialiseerde verwerking van de ingangsaudio, kan een edge-audioprocessor ook worden gebruikt voor de naverwerking van audio-uitgangssignalen. Als het VUI-systeem met de cloud is verbonden, kan de audio edge-processor ook communiceren met de VUI-interface in de cloud via het hoofdsysteem-op-een-chip (SoC) met draadloze connectiviteit. In dit document worden twee verschillende implementaties voor VUI-systemen gepresenteerd, samen met hun respectievelijke compromissen.
Ultra-low-power VAD (detectie van spraakactiviteit)
De architectuur getoond in figuur 1 ondersteunt ultra-low-power VUI met behulp van een analoog signaalpad, inclusief analoge microfoon en een analoge comparator om een wake-trigger te bieden. Wanneer een akoestische activiteit wordt gedetecteerd, genereert de analoge signaalketen een onderbreking om de audioprocessor te wekken voor spraakopname. Het apparaat kan ook een "push-to-talk"-functie bevatten, waarbij de gebruiker op een knop drukt om de audioprocessor te activeren.
De analoge wake-microfoon moet altijd naar de omgeving luisteren en daarom moet deze microfoon, samen met de comparator, zeer weinig stroom verbruiken. Een voorbeeld van een efficiënte audioprocessor met een stroomverbruik van minder dan 1 mW in de eenvoudigste activeringsmodus en 1 MB geheugen voor geavanceerde audioverwerking is de Knowles IA8201. Hoewel de in figuur 1 geïllustreerde benadering een eenvoudige, energiezuinige AAD-benadering (acoustic activity detection) biedt voor always-on VUI in apparaten zoals afstandsbedieningen en wearables, heeft deze ook beperkingen. Deze implementatie wekt de audioprocessor voor elk akoestisch signaal en kan leiden tot een hoog algemeen systeemstroomverbruik in lawaaierige situaties. Ook hebben spraakgebruikersinterfacesystemen die met de cloud zijn verbonden, audiogegevens nodig voor een periode net voordat het activeringswoord wordt vastgelegd voor een grotere nauwkeurigheid van de activeringswoorddetectie. Dit wordt gewoonlijk pre-roll genoemd en is een vereiste voor Alexa-compatibele apparaten en andere slimme luidsprekerapparaten.
Afbeelding 2 toont een architectuur die pre-roll-buffering ondersteunt voor apparaten zoals slimme luidsprekers. Deze apparaten hebben doorgaans grotere batterijen en/of hebben mogelijk niet de vereiste van meerdere maanden batterijlevensduur op een enkele lading. Het VUI-systeem staat altijd aan, luistert naar de omgeving en neemt pre-roll op in een cirkelvormige buffer. De lengte van de pre-roll is meestal in de orde van grootte van 500 ms aan audiogegevens en wordt gebruikt om het omgevingsgeluidsniveau te kalibreren.
Er zijn een paar verschillende benaderingen om de always-on, front-end architectuur te ontwerpen. De keuze van de audioprocessor hangt af van het aantal gebruikte microfoons en of deze analoog of digitaal zijn.
De hierboven getoonde architectuur maakt gebruik van een Knowles IA611 voor detectie van stemactiviteit, SPH0655LM4H-1 Cornell II digitale microfoons voor beamforming en Knowles IA8201 voor audioverwerking. De Knowles IA611 is een slimme microfoon die voordelen biedt aan een systeemontwerper, zoals besproken in de volgende sectie.
Microfoonselectie
Voor de architectuur die in figuur 1 wordt getoond, wordt een enkele analoge microfoon en comparator gebruikt als triggeringang om de audioprocessor te wekken wanneer een akoestische activiteit wordt gedetecteerd. De wake-mic moet een analoge microfoon met laag vermogen zijn met een signaal-ruisverhouding (SNR) bij voorkeur hoger dan 62 dB. Het Knowles SiSonic MEMS-microfoonportfolio biedt verschillende keuzes voor de wake-microfoon. De analoge SPV1840LR5H-B Kaskade-microfoon is bijvoorbeeld een goede keuze die slechts 45 µA verbruikt als hij is ingeschakeld. Het always-on analoge pad, inclusief een microfoon, versterker en de comparator, verbruikt minder dan 67 µA. Er zijn piëzo-elektrische microfoons op de markt met een zeer laag, altijd ingeschakeld vermogen (10 µA), maar ze hebben doorgaans een lage SNR, wat de systeemprestaties kan beïnvloeden.
Voor de pre-roll-bufferarchitectuur die in figuur 2 wordt getoond, zijn microfoons met een ingebouwde audioprocessor en voldoende geheugen om spraakgegevens continu vast te leggen in een cirkelvormige buffer van 2 seconden, zoals de Knowles IA611, haalbare opties voor always-on spraakactiviteit detectie. Het wordt ook geleverd met een ecosysteem van geporteerde spraaktriggers en commando's, zoals Amazon's Alexa. Wanneer een trefwoord wordt gedetecteerd, worden zowel de pre-roll-buffer als de gesproken audio naar de cloud-engine voor automatische spraakherkenning (ASR) gestuurd. De altijd-aan, voice-wake power van de IA611 is 0,39 mA @ batterij 1,8 V en 90 procent efficiëntie, waardoor het een goede keuze is voor de spraakgebruikersinterface in op batterijen werkende apparaten zoals Bluetooth-luidsprekers. Het apparaat accepteert ook PDM-invoer van een digitale microfoon en kan worden gebruikt om beamforming op de host-BT-SoC-processor te ondersteunen door audio door te geven zodra het systeem wakker wordt.
Hoewel dit altijd ingeschakelde vermogen acceptabel is voor pre-roll-toepassingen, is het ook de moeite waard om te overwegen voor een niet-pre-roll-architectuur, zoals geïllustreerd in afbeelding 1. Zoals eerder beschreven, activeert een analoge wake-microfoon voor elk binnenkomend geluid en schakelt de audio-processor. Dit kan problematisch zijn in een lawaaierige omgeving, zoals wanneer de tv AAN staat, waar er veel valse wakes zijn die leiden tot aanzienlijke verspilling van stroom. Als detectie van spraakactiviteit wordt gebruikt in plaats van de analoge wake-microfoon met laag vermogen, wordt het systeem alleen ingeschakeld wanneer een trefwoord wordt gedetecteerd. Het is logisch om te begrijpen waarom het gebruik van een microfoon voor detectie van spraakactiviteit efficiënter kan zijn dan een eenvoudige analoge wake-microfoon in een rumoerige omgeving.
Afbeelding 3 toont simulatiegegevens die het aantal dagen batterijlevensduur vergelijken voor een typische tv-afstandsbediening met VAD op IA611 versus een concurrerende piëzo-elektrische AAD-microfoon met laag vermogen en een audioprocessor voor variërende duur van akoestische activiteit AAN-tijd. Akoestische activiteit kan aanwezig zijn wanneer de tv of andere huishoudelijke apparaten AAN staan, of in andere situaties wanneer er gebabbel enz. is. Zoals te zien is in figuur 3, is er een overgangspunt op ongeveer 3 uur, waarbij het vermogensvoordeel van het gebruik van de analoge AAD op de microfoon van een concurrent versus detectie van spraakactiviteit op IA611 verdwijnt.
Met vijf uur akoestische activiteit AAN-tijd biedt de oplossing voor detectie van spraakactiviteit acht extra dagen batterijduur ten opzichte van de concurrerende op AAD gebaseerde oplossing. Om dit voordeel in context te plaatsen, keken Amerikaanse volwassenen bijna acht uur tv per dag, volgens een onderzoek van Nielsen dat in 2017 werd gepubliceerd. Met de toenemende vraag naar apparaten met internetverbinding, zoals smart-tv's, gameconsoles en andere multimedia-apparaten, Het aantal uren akoestische activiteit in een typisch Amerikaans huishouden zal waarschijnlijk ook blijven stijgen. Het gebruik van een intelligente op VAD gebaseerde wake-up helpt systeemontwerpers om energiezuinigere VUI-systemen te ontwikkelen.
Conclusie
Van smart home, hospitality, digitale werkplekken, spraakbetalingen, intelligent energiebeheer, voice at the edge en gezondheidszorg, helemaal tot industriële IoT-toepassingen die de fabrieksvloer veranderen, spraak voegt flexibiliteit, efficiëntie, duurzaamheid en acceptatie toe aan nieuwe technologieën.
De verschillende hardware-architecturen voor het ontwerpen van een spraakgebruikersinterface, samen met het microfoongedeelte, voorzien elk in een iets andere behoefte, afhankelijk van de toepassingen van het eindapparaat en de voorkeuren van de ontwerper; Voor Alexa-apparaten en slimme luidsprekers is bijvoorbeeld een pre-roll-bufferarchitectuur vereist.
Het is belangrijk dat elektronica-ingenieurs en ontwerpers zorgvuldig evalueren hoe het eindapparaat gebruik zal maken van stem, mogelijkheden waartoe ze toegang willen hebben, en van daaruit de juiste architectuur en microfooncomponenten dienovereenkomstig bepalen.
Raj Senguttuvan heeft meer dan 15 jaar ervaring in de ontwikkeling van nieuwe technologie voor consumenten- en industriële toepassingen, bedrijfsontwikkeling in een vroeg stadium en projectmanagement voor bedrijven als Analog Devices en Texas Instruments. In zijn rol als directeur strategische marketing voor Knowles geeft hij leiding aan de ontwikkeling op systeemniveau, stimuleert hij venture-investeringen en partnerschappen en marketingstrategie voor IoT en consumententechnologieën, waaronder audioprocessors, algoritmen, microfoons, sensoren en ontvangers. Raj heeft een MBA van de Cornell University en een PhD in elektrotechniek van het Georgia Institute of Technology.
Verwante inhoud :
- Voeg stem toe aan een microcontroller zonder te hoeven coderen
- Wat zit er achter de overstap naar aangepaste stemagenten?
- Spraakbiometrische oplossing richt zich op authenticatie
- AI vindt zijn stem in audioketen
- Hoe uitgebreide signaalverwerkingsketens stemassistenten 'gewoon laten werken'
- Ontwikkelkits versnellen Alexa-integratie
Sensor
- 6 belangrijke ontwerpoverwegingen voor 3D-metaalprinten
- Voordelen ingesloten technologieën voor modulair ontwerp
- Overwegingen bij PCB-layout
- Ontwerp voor het vervaardigen van PCB's
- Overwegingen bij het verlichtingsontwerp voor zichtsystemen voor robotchirurgie
- Waarom traceerbaarheid een essentiële basis is voor IIoT-enabled productiesystemen
- Een op spinnen geïnspireerd ontwerp maakt de weg vrij voor betere fotodetectoren
- Belangrijke overwegingen voor PCB-assemblage
- Overwegingen bij impedantie-ontwerp voor flexibele printplaten
- Overwegingen bij het ontwerpen van antennes bij IoT-ontwerp
- Overwegingen bij het thermische ontwerp van PCB's