Industriële fabricage
Industrieel internet der dingen | Industriële materialen | Onderhoud en reparatie van apparatuur | Industriële programmering |
home  MfgRobots >> Industriële fabricage >  >> Industrial Internet of Things >> Internet of Things-technologie

Hoe audio edge-processors spraakintegratie in IoT-apparaten mogelijk maken

Toegewijde audio edge-processors met een focus op audiogetrouwheid en met machine learning zijn geoptimaliseerde kernen de sleutel om IoT-apparaten te voorzien van spraakgebruikersinterfaces zonder dat een internetverbinding met hoge bandbreedte nodig is.
Spraakverwerkingsmogelijkheden zijn snel in opkomst in consumentenproducten zoals de iOttie Aivo Connect. (Bron:Knowles)

Van domotica en e-commerce tot gezondheidszorg en automotive, meer industrieën combineren nu IoT-mogelijkheden met spraakintegratie om aan veranderende eisen te voldoen en zakelijke voordelen te ontgrendelen. Toch bevindt spraak zich nog in de beginfase van adoptie en begint het zich verder uit te breiden dan mobiele apparaten en luidsprekers. Voice wordt de standaardmethode voor interactie tussen gebruikers en hun IoT-apparaten. Deze verschuiving naar voice first wordt ondersteund door meer dan alleen het idee dat het het comfort van de consument verhoogt met technologie. Wereldwijde mobiliteit van spraakgestuurde apparaten voor spraakgestuurd zoeken onderweg, vooruitgang in natuurlijke taalverwerking (NLP) en vooruitgang in kunstmatige intelligentie en machine learning zorgen ervoor dat nieuwe toepassingen snel kunnen evolueren.

Aangename en boeiende spraakinteractie wordt beperkt door een consistente geluidskwaliteit in de aanwezigheid van ruis en andere afleiders. Het vermogen van uw apparaat om geluid intelligent te beheren, is wat uw communicatievermogen maakt of breekt. De verwachting is dat always-on voice user interface (VUI) gemeengoed zal worden in meer consumentenproducten, waaronder audio- en video-apparaten, witgoed, en ook in een breed scala aan batterijgevoede apparaten, zoals afstandsbedieningen, wearables, Bluetooth luidsprekers, beveiligingscamera's en camera's voor buitenactiviteiten. Hoewel er ontwerpuitdagingen moeten worden overwonnen, is er een grote kans voor zowel leveranciers van componenten als OEM's om producten te leveren die aan deze toepassingsbehoeften voldoen.

Om optimaal te profiteren van de mogelijkheden voor spraakintegratie naarmate ze volwassener worden, gaan meer verwerkingstechnologieën naar de edge, weg van de cloud. De resultaten zijn verbeterde gebruikersinterfaces met lagere latentie en lagere kosten, zowel in dollars als in bandbreedte. Fabrikanten die IoT-enabled CE-oplossingen voor morgen ontwerpen, moeten spraakintegratie beschouwen als een vereiste voor productkenmerken. OEM's die speciale spraakverwerking aan de rand kunnen implementeren, kunnen deze applicaties schalen en hun portfolio uitbreiden.

Dit artikel bespreekt de meest voorkomende uitdagingen bij het implementeren van VUI's voor IoT-apparaten die altijd aan/altijd luisteren. Het artikel bespreekt de bijbehorende vereisten en ontwerpmogelijkheden die nodig zijn om effectief aan die vereisten te voldoen, inclusief integratie met besturingsinterfaces, softwarestacks, ontwikkeling van algoritmen en ontwikkeling van gebruikersruimtetoepassingen.

Audio Edge-processors integreren in IoT-apparaten

Toegewijde audio edge-processors met een focus op audiogetrouwheid en met machine learning geoptimaliseerde kernen zijn de sleutel tot het ondersteunen van hoogwaardige audiocommunicatieapparatuur. Deze processors kunnen voldoende rekenkracht leveren om audio te verwerken met behulp van traditionele en ML-algoritmen, terwijl ze een klein percentage van de energie van een generieke processor gebruiken. En aangezien de verwerking op het apparaat gebeurt, is het aanzienlijk sneller dan het verzenden van die informatie naar de cloud en terug.

IoT-apparaten integreren audioprocessors om uitgebreide mogelijkheden zoals voice wake toe te voegen. Hoewel de cloud enkele grote voordelen kan bieden, stelt edge-verwerking gebruikers in staat om op elk moment de volledige capaciteit van hun apparaat te benutten zonder dat een internetverbinding met hoge bandbreedte nodig is. Edge-audioprocessors zorgen bijvoorbeeld voor een superieure gebruikerservaring in virtuele communicatie door verwerking van audio met contextuele gegevens met lage latentie, terwijl de contextuele gegevens ook lokaal en veilig worden gehouden.

Uitdagingen bij het integreren van spraak

De toepassingsmogelijkheden voor spraakoproep, bediening en interactie blijven toenemen. Met meer apparaten wordt echter meer fragmentatie geïntroduceerd, waardoor het moeilijker wordt om spraak te integreren. Hoe u stembesturing integreert in elke toepassing, of het nu Bluetooth-luidsprekers, huishoudelijke apparaten, koptelefoons, wearables of liften zijn, zal anders zijn. Het toevoegen van een voice-wake-trigger kan eenvoudig zijn, maar het ontwerpen van een Bluetooth-luidspreker en -headset van ondernemingskwaliteit is een stuk ingewikkelder. Als die luidspreker echte draadloze stereo (TWS)-integratie bevat, neemt de complexiteit opnieuw toe.

Bovendien vereisen verschillende applicaties spraakintegraties met verschillende ecosystemen. U moet bijvoorbeeld in een Linux-ecosysteem werken om spraak op de meeste smart-tv's te implementeren, maar om spraak op een huishoudapparaat te krijgen, moet u in een microcontroller-ecosysteem (MCU) werken. Voor al deze integraties is er een algemene, aanbevolen manier om dit te doen, maar er zijn altijd variaties, wat de complexiteit vergroot.

Hoogwaardige oplossingen voor massamarktontwikkeling zijn van cruciaal belang om deze uitdagingen het hoofd te bieden en nieuwe technologie snel op de markt te brengen ter ondersteuning van de snel evoluerende manier waarop we werken, leven en communiceren. Om deze uitdagingen aan te gaan, moeten geschikte oplossingen aan meerdere ontwerpvereisten voldoen.

Belangrijke ontwerpvereisten aanpakken

Stroomverbruik

Om ervoor te zorgen dat een VUI-apparaat opdrachten ontvangt, moet het altijd-aan/altijd-luisteren naar opdrachten. Of deze apparaten nu zijn aangesloten, en vooral als ze op batterijen werken, de beperking van het stroomverbruik kan een grote ontwerpuitdaging zijn.

In een spraakcommandosysteem moet altijd ten minste één microfoon actief zijn en moet de processor die is belast met het herkennen van het wake-woord ook actief zijn. Audio edge-processors die zijn ontworpen met eigen architecturen, hardwareversnellers en speciale instructiesets, kunnen audio- en ML-algoritmen optimaal uitvoeren. Deze optimalisaties helpen bij het verminderen van het stroomverbruik.

Latentie

Er is geen tolerantie voor latentie bij spraakgestuurde apparaten. Zelfs als er een vertraging van meer dan 200 milliseconden wordt waargenomen, beginnen mensen over elkaar heen te praten tijdens spraakoproepen, of herhalen ze hun commando's voor de stemassistent. Om spraakgeïntegreerde apparaten te ontwikkelen die de nodige acceptatie door de consument zullen krijgen, moeten ingenieurs en productontwerpers zorgen voor geoptimaliseerde audioketens door het hele systeem om te voldoen aan de industriespecificaties en de beste gebruikerservaringen. Verwerking met lage latentie in edge-processors is daarom een ​​essentiële vereiste om spraakcommunicatie van hoge kwaliteit te garanderen.

Integratie

Omdat er veel opties zijn als het gaat om de keuze van hardware en software voor verschillende VUI-implementaties, zijn er eisen die op verschillende punten in de integratiefase een uitdaging kunnen worden. Enkele belangrijke ontwerpoverwegingen waarmee u rekening moet houden, zijn de hieronder besproken.

Hardware-integratie

Er zijn verschillende hardware-architecturen voor het implementeren van een VUI-systeem, afhankelijk van het apparaatgebruik, de applicatie en het ecosysteem. Elk VUI-apparaat zal microfoons bevatten, een enkele microfoon of een microfoonarray, aangesloten op een audioprocessor voor het vastleggen en verwerken van audio. In dit recente Embedded-artikel van Knowles bespreekt mijn collega de hardware-architectuuroverwegingen voor het implementeren van een VUI-systeem en de voor- en nadelen daarvan.

Integratie van hostsoftware

Zoals hierboven vermeld, zijn er verschillende besturingssystemen en stuurprogramma's om uit te kiezen. Idealiter wordt de audioprocessor geleverd met firmware en een set stuurprogramma's die worden geconfigureerd om verbinding te maken met de hostprocessor. Het besturingssysteem, zoals Android of Linux, draait meestal op de hostprocessor.

Driversoftwarecomponenten die in de kernelruimte worden uitgevoerd, werken samen met de firmware via de besturingsinterface en audiogegevens van de audio edge-processor kunnen in de gebruikersruimte worden gelezen via de standaard Advanced Linux Sound Architecture (ALSA)-interface.

Om de software te integreren met de rest van het hostsysteem, kan het een complexe taak worden om het stuurprogramma voor de audioprocessor dat in het softwareversiepakket wordt geleverd, te verbinden met de kernel-image. Dit omvat het kopiëren van de broncode van het stuurprogramma naar de kernelbronstructuur, het bijwerken van enkele kernelconfiguratiebestanden en het toevoegen van apparaatstructuurvermeldingen volgens de relevante hardwareconfiguratie.

Een oplossing hiervoor zou zijn om vooraf geïntegreerde standaard referentieontwerpen te gebruiken met exacte of vergelijkbare configuraties.

In een ideale situatie zou de audio edge-processor gestroomlijnde softwarestacks voor integratie bieden en worden geleverd met vooraf geïntegreerde en geverifieerde algoritmen als een oplossing op systeemniveau om het proces verder te vereenvoudigen.

Algoritme-integratie

Nu we het toch over algoritme-integratie hebben. Er zijn meestal meerdere algoritmen die op elk moment tussen verschillende gebruiksscenario's schakelen. Zelfs voor voice wake heeft een ontwerp multi-mic beamformers, een edge voice wake engine en cloudgebaseerde verificatie nodig. Dit betekent dat ten minste drie algoritmen samenwerken om de prestaties te optimaliseren. Voor elk apparaat dat kan worden geïntegreerd met Alexa- of Google Home-zoekwoorden, moeten er meerdere algoritmen zijn, vaak afkomstig van verschillende leveranciers, die samen in één apparaat moeten worden geoptimaliseerd.

Een oplossing is om een ​​audio edge-processor te kiezen die vooraf is geïntegreerd met geverifieerde algoritmen, ontwikkeld en getest onafhankelijk van het hostsysteem.

Vormfactorintegratie

Er zijn veel vormfactoren die apparaten tegenwoordig kunnen aannemen. Elk heeft zijn eigen configuratie van meerdere geïnstalleerde microfoons. De afstand en plaatsing van microfoons en luidsprekers spelen een grote rol bij de prestaties. Afstemming en optimalisatie van prestaties moeten veranderen op basis van de uiteindelijke vormfactor en beoogde use-cases. Er zijn ook fabricagevariaties die van invloed zijn op de prestaties, zoals microfoonafdichting, akoestische behandelingen op het apparaat, trillingsdemping en meer.

Privacy

Veel audioprocessors detecteren het activeringswoord en sturen de informatie vervolgens onmiddellijk naar de cloud waar het wordt geïnterpreteerd en opgevolgd. Een groot probleem is dat zodra de audiogegevens zich in de cloud bevinden, de gebruiker geen controle heeft over de gegevens en daardoor wordt blootgesteld aan een hoog privacyrisico. De oplossing voor deze uitdaging is om AI-processors aan de rand te kiezen die de opdrachtinterpretatie en responslogica op het apparaat kunnen uitvoeren, lokaal, "aan de rand".

Hierdoor blijven gevoelige persoonlijke audiogegevens lokaal, zonder dat ze naar de cloud worden gestuurd waar ze tegen onze wensen kunnen worden gebruikt. De VUI-implementatie is nu niet alleen veel persoonlijker, maar kan ook sneller reageren, waardoor gebruikersinteracties veel natuurlijker worden. Dit is een goed voorbeeld van hoe edge AI-processors bestaande gebruiksscenario's kunnen verbeteren om de bruikbaarheid van de apparaten die we elke dag gebruiken en vertrouwen te maximaliseren.

De hardware- en software-interface

De ontwerpvereisten voor VUI-implementaties kunnen complex zijn en kunnen het een uitdaging maken om apparaten met spraakintegratie snel op de markt te brengen. OEM's en systeemintegrators kunnen de risico's drastisch verminderen door te werken met standaard ontwikkelkits voor oplossingen, zoals de Knowles AISonic Bluetooth Standard Solution Kit. Dergelijke kits bieden voorgeconfigureerde uitgangspunten voor prototypes waarmee de ontwerpers hun eigen innovaties kunnen ontwikkelen zonder zich zorgen te hoeven maken over de hierboven besproken ontwerpuitdagingen. Ontwerpers moeten op zoek gaan naar ontwikkelkits met vooraf geïntegreerde en geverifieerde algoritmen, vooraf geconfigureerde microfoons en stuurprogramma's die compatibel zijn met de hostprocessor en besturingssystemen.

Audio edge-processors die hun architecturen en ontwikkelomgevingen openen, versnellen innovatie door ontwikkelaars van audio-applicaties de tools en ondersteuning te bieden om nieuwe apparaten en applicaties te creëren. Toekomstige audioapparaten zullen een gezamenlijke inspanning zijn.


Internet of Things-technologie

  1. Hoe 5G het industriële IoT zal versnellen
  2. Waarom edge computing voor IoT?
  3. Hoe IoT werkplekken verbindt
  4. IoT biedt wereldwijde voordelen
  5. Hoe geeft IoT vorm aan zakelijke mobiliteit?
  6. IoT lonend maken:een winstgevend IoT-bedrijfsmodel bouwen
  7. Hoe gevaarlijk is de dreiging van kill chain-aanvallen op IoT?
  8. Hoe zorgt IoT voor een revolutie op het gebied van veiligheid op de werkplek?
  9. Hoe IoT de klantervaring verbetert
  10. IoT-ontwikkelingsuitdagingen overwinnen
  11. Wat is een Edge-apparaat en waarom is het essentieel voor IoT?