Dev kits versnellen Alexa-integratie

Ontwerpingenieurs kunnen hardwaremodules en softwarediensten gebruiken om Alexa Voice Service (AVS) te integreren in smart home, automotive en draagbare apparaten; die de cloudgebaseerde Alexa-ervaringen naar producten brengt, variërend van draagbare luidsprekers tot slimme apparaten tot infotainment in voertuigen. Ontwikkelaars kunnen Alexa integreren in op spraak gebaseerde producten en een begeleidende app schrijven om van een product een verbonden product te maken.

Sinds Amazon het originele Alexa-apparaat in 2014 op de markt bracht, hebben Amazon Web Services (AWS) en verschillende chipmakers referentieontwerpen onthuld die ingenieurs helpen de spraakherkenningstechnologie en AVS-interface van Amazon te integreren door vooraf gebouwde en geteste ontwerpen te leveren.

Dus als uw bedrijf niet veel technici heeft om aan hardware- en softwareontwikkeling te werken, vergemakkelijken referentieontwerpen de ontwikkeling van een eenvoudig en kosteneffectief begrip van natuurlijke taal en een spraakinterface voor op Alexa gebaseerde ontwerpen. Anders maakt de integratie van hoogwaardige audioverwerking de ontwikkeling van spraakgestuurde apparaten langdurig en gecompliceerd.

Figuur 1. Referentieontwerpen voor op AVS gebaseerde spraaktoepassingen zijn ontworpen om de spraakherkenningstechnologie van Amazon naadloos te integreren in spraakgestuurde apparaten. Bron:STMicroelectronics

Wachtwoorddetectie

Het begint allemaal met een robuuste wake-word-engine (WWE) die luistert naar het trefwoord "Alexa" voordat het systeem actie onderneemt. Er is een cloudgebaseerde wake-word-verificatie die de context valideert en ervoor zorgt dat de gebruiker Alexa echt wil. Hier verbetert het spraakopnamegedeelte van het referentieontwerp de "Alexa" wake-word-detectie door audio-opname uit te voeren in reële omstandigheden. Zodat ontwerpers lawaaierige omgevingen kunnen onderbreken, zelfs vanaf middelmatige afstanden.

Neem het voorbeeld van Cirrus Logic's Voice Capture Development Kit voor Amazon AVS-applicaties; het biedt akoestische afstemming met bewezen hardware- en softwarecomponenten. De kit verbetert de "Alexa" wake-word-detectie in zowel stille als lawaaierige omgevingen, zelfs als de gebruiker zich op enkele meters afstand van het apparaat bevindt. Het doet dat door ruis en andere echte interferentie te onderdrukken voor nauwkeurigere en betrouwbaardere spraakinteracties.

Figuur 2. Het far-field AVS-referentieontwerp is gericht op slimme luidsprekers en andere spraakgestuurde smarthome-apparaten. Bron:Cirrus Logic

Zoals hierboven weergegeven, bevat de kit een spraakopnamekaart met de array met twee microfoons, Raspberry Pi 3 (RPi3), luidspreker en een microSD-kaart die vooraf is geladen met de vereiste firmware voor onmiddellijke productiviteit. Een bedieningsconsole vereenvoudigt de bediening van de verschillende RPi3-toepassingen en biedt een gebruiksvriendelijke interface voor het uitvoeren van akoestische afstemming en diagnostische functies.

Het spraakopnamebord is voorzien van Cirrus Logic's CS47L24 slimme codec, CS7250B digitale MEMS-microfoons en SoundClear-algoritmen voor spraakbesturing, ruisonderdrukking en echo-onderdrukking. Hier integreert slimme codec hifi-DAC's, een stereohoofdtelefoonversterker en een monoluidsprekerversterker om het board-onroerend goed en de stuklijst (BOM) te verminderen.

Vervolgens zorgen de MEMS-microfoons met een ultralage ruisvloer en een breed dynamisch bereik van 103 dB voor nauwkeurige spraakopname in uitdagende geluidsomstandigheden. Ten slotte blokkeren de SoundClear-algoritmen ruis die anders het Alexa-wakewoord zou verstoren.

Hierdoor kan de kit op efficiënte wijze "Alexa" wake-word-detectie en audio-opname uitvoeren in reële omstandigheden, zelfs vanaf middelmatige afstanden in rumoerige omgevingen, waardoor gebruikers op betrouwbare wijze luide muziek of het afspelen van Alexa-respons kunnen onderbreken.

Audio front-end

De basishardware in een AVS-gebaseerd ontwerp omvat meerdere microfoons en een audio-front-end (AFE) die zorgt voor de "Alexa" wake-word-detectie in zowel stille als lawaaierige omgevingen. Dat maakt de audio-front-end een cruciale bouwsteen van elk AVS-referentieontwerp.

Audio front-end pikt de stem van de gebruiker op, versterkt deze, vermindert achtergrondgeluid en stuurt deze naar de cloud. Het is moeilijk om te doen, en daarom is het gebruik van een ontwikkelkit een geweldige manier om een audio-frontend te maken.

Neem het geval van TalkTo, de audio-front-end van DSP Concepts met AVS-gekwalificeerde geïntegreerde spraakverwerking; het is gelanceerd voor het AWS IoT Core-referentieontwerp van STMicroelectronics op basis van de STM32 MCU's van de chipmaker. De TalkTo audio-front-end biedt ruisonderdrukking, echo-onderdrukking en signaalverwerking op basis van geavanceerde beamforming voor audiodetectie in het verre veld. Het wordt geleverd via Audio Weaver, een gratis tool waarmee ontwikkelaars AVS-ontwerpen kunnen verfijnen.

Figuur 3. Een single-chip-oplossing met audio-front-end-verwerking, lokale wake-word-detectie, communicatie-interfaces en geheugeninhoud, inclusief RAM en flash, verlaagt de stuklijstkosten en vereenvoudigt de lay-out. Bron:STMicroelectronic

Het 36×65 mm-bord van ST combineert een wifi-module met een STM32H743 MCU die audio-front-end-verwerking, lokale wake-word-detectie, communicatie-interfaces en geheugen in één chip integreert. De hardware voor referentieontwerp bevat ook een audio-dochterbord als aparte module om de ontwikkeling en prototyping verder te vereenvoudigen.

Het dochterbord bestaat uit FDA903D-audiocodec, gebruikers-LED's en -knoppen, en twee MP23DB01HP MEMS-microfoons met een onderlinge afstand van 36 mm voor ontwerpen met beperkte afmetingen. Dat stelt ontwikkelaars ook in staat om een privacymodus op te nemen die de microfoons uitschakelt, zodat een rode LED de gebruikers kan informeren dat Alexa spraakopdrachten niet kan horen.

Fare-field spraakherkenning

Andere chipmakers hebben ook meegewerkt aan referentieontwerpen waarin Amazon's far-field spraakherkenningstechnologie is geïntegreerd. NXP heeft bijvoorbeeld een referentieplatform onthuld dat beweert het verzoek van een gebruiker aan de andere kant van de kamer te herkennen, zelfs als er harde muziek wordt afgespeeld.

Het referentieplatform van NXP voor Amazon Alexa omvat een array-ontwerp met 7 microfoons, audioverwerkingsalgoritmen en beamforming-technologie. Het integreert Amazon's far-field spraakherkenningstechnologie met de i.MX-toepassingsprocessors van NXP en is gericht op het vereenvoudigen van het maken van spraakgestuurde apparaten.

De spraakgestuurde ontwerpen zoals Alexa transformeren de manier waarop gebruikers omgaan met slimme dingen, variërend van broodroosters tot fornuizen en thermostaten tot jaloezieën. Hier bieden referentieborden en spraakopnamekits de snelste route naar de markt voor verschillende Alexa-compatibele producten, terwijl ze zorgen voor zeer nauwkeurige activering van het activeringswoord en de interpretatie van opdrachten, zelfs in lawaaierige omgevingen.

We staan helemaal aan het begin van de spraakgestuurde apparaatrevolutie en de diversiteit van deze toepassingen betekent dat vooraf ontworpen en geteste referentiekaarten en kits waarschijnlijk een belangrijke rol zullen spelen. Hun rol zal cruciaal zijn om de spraakgestuurde producten sneller op de markt te brengen en hun ontwerpcomplexiteit te omzeilen.

>> Dit artikel is oorspronkelijk gepubliceerd op onze zustersite, EDN.

Waar Edge en Endpoint AI de cloud ontmoeten Het faciliteren van IoT-provisioning op schaal

Internet of Things-technologie

Ingebed

Sensor

Cloud computing

Internet of Things-technologie