Algoritmen en hardwarematige toename van stembesturing

Spraakbesturing en spraakinterfaces zijn begonnen met hun onverbiddelijke infiltratie van vrijwel alle categorieën van consumentenrandapparatuur. Vooruitgang in zowel spraakherkenningsalgoritmen als AI-versnellerhardware betekent dat de technologie zelfs toegankelijk is voor toepassingen met beperkte energie en kosten, zoals slimme apparaten voor thuisgebruik (en zelfs enkele domme).

De drijfveren achter stembesturing in smart home-apparaten van de gebruikerskant zijn duidelijk.

Alireza Kenarsari-Anhari (Bron:PicoVoice)

"Gebruiksgemak en gemak zijn op dit moment de belangrijkste drijfveren", vertelde Alireza Kenarsari-Anhari, CEO van PicoVoice aan EE Times. Het is gemakkelijk voor te stellen dat je vanaf je bureau naar een koffiezetapparaat in je thuiskantoor schreeuwt als je koffie wilt, of bestellingen dicteert aan een wasdroger terwijl je een mand met natte was vasthoudt.

We gaan ervan uit dat slimme apparaten zoals deze, die niet draagbaar zijn, permanent toegang hebben tot de wifi-verbinding van het huis - dus waarom deze spraakverwerking niet in de cloud doen?

De trend naar edge AI in deze situatie wordt voornamelijk gedreven door privacy, wat volgens Kenarsari-Anhari een punt van zorg is voor consumenten, maar een must-have voor sommige ondernemingen. Betrouwbaarheid is een andere drijfveer:“Heeft het zin dat je wasmachine stopt met werken als je wifi het niet doet?” zei hij.

Latency is ook belangrijk in bepaalde situaties; sommige applicaties hebben realtime garanties nodig voor de verwerking van de spraakbelasting, zoals gamen.

Kosten zijn een andere grote drijfveer voor edge-verwerking van spraak, aangezien het geld kost om deze spraakgegevens in de cloud te verwerken. Het bedrijfsmodel van betalen telkens wanneer u een cloud-API gebruikt, werkt niet voor gebruikssituaties zoals huishoudelijke apparaten en consumentenelektronica, die een lage kostprijs hebben en vele malen per dag kunnen worden gebruikt.

PicoVoice, wiens AI-spraak-naar-tekst-inferentie-engine is ontworpen om onafhankelijk van de cloud op microcontrollers van minder dan $ 1 te draaien, heeft tot doel spraakbesturing mogelijk te maken in toepassingen waar dit anders niet haalbaar zou zijn. Dit kunnen wearables en hearables voor consumenten zijn, die op het kruispunt staan van de energie-efficiëntie en kostenefficiëntie die mogelijk zouden kunnen worden gemaakt door een op microcontrollers gebaseerde spraakoplossing. Een stroom- en kostengeoptimaliseerde oplossing zou ook kansen kunnen bieden in industriële, beveiligings- en medische toepassingen, zegt Kenarsari-Anhari.

Het bedrijf lanceerde onlangs Shepherd, een no-code platform voor het bouwen van spraakapplicaties op microcontrollers, dat werkt met de modelcreatiesoftware van het bedrijf, PicoVoice Console. Shepherd ondersteunt populaire Arm Cortex-M-microcontrollers van ST en NXP met ondersteuning voor andere apparaten onderweg.

"Ik zie spraak als een interface - als je je GUI of website kunt bouwen zonder codering, misschien met behulp van WordPress, is het bouwen van spraakinterfaces op een vergelijkbare manier de volgende logische stap", zei Kenarsari-Anhari. “Shepherd stelt productmanagers en UX-ontwerpers in staat om prototypes te bouwen en snel te itereren, maar we streven er wel naar om de beoogde gebruikersbasis te verbreden. Wat als iedereen zijn eigen assistent zou kunnen bouwen? Noem het wat ze willen - niet Alexa! — en geef het de persoonlijkheid die ze willen.”

Hoewel het perfect mogelijk is om modellen voor natuurlijke taalverwerking te ontwikkelen en te implementeren zonder gespecialiseerde software, is deze route niet voor iedereen weggelegd.

"Dat kan zeker - Apple, Amazon, Google en Microsoft hebben het gedaan", zei hij. "Het gaat er echt om of een onderneming de middelen heeft, toegewijd is om er een organisatie omheen te bouwen en het zich kan veroorloven om een paar jaar te wachten."

Toekomstige trends

Voice wordt de voorkeursinterface voor de volgende generatie technologiegebruikers, vertelde Kurt Busch, CEO van Syntiant, afgelopen zomer aan EE Times in een interview.

Kurt Busch (Bron:Syntiant)

Busch beschreef hoe zijn jongste kind, dat kon lezen maar nog wat te jong was voor schrijven en spellen, met zijn vrienden kon sms'en via de spraakinterface op een smartphone.

"Zijn oudere broers en zussen sms'en, maar zijn generatie kreeg een paar jaar eerder telefoons dan zij", zei Busch. "Naarmate de tijd verstrijkt, is voor zijn generatie en jonger hun standaardinterface om ermee te praten."

Busch is van mening dat spraak "het aanraakscherm van de toekomst" zal worden, waarbij verwerking in het apparaat snelle, responsieve interfaces biedt, eerst op apparaten met een toetsenbord of muis, en vervolgens in witgoed.

De chips van Syntiant zijn gespecialiseerde AI-versnellers die zijn ontworpen om spraak-AI-workloads aan te kunnen in consumentenelektronica met een laag tot extreem laag stroombudget. De startup heeft tot nu toe meer dan 10 miljoen van zijn chips wereldwijd verzonden, waarvan de meeste in mobiele telefoons zijn gegaan om altijd actieve trefwoorddetectie mogelijk te maken. De nieuwste Syntiant-chip, NDP120, herkent hete woorden zoals "OK Google" om de Google-assistent te activeren in minder dan 280 µW.

In de toekomst ziet Busch ook spraakbesturing die connectiviteit en toegang tot technologie voor iedereen mogelijk maakt.

"We zien stem als de grote democratiseerder voor technologie", zei Busch. “Er zijn 3 miljard mensen in de wereld die leven van 2 dollar per dag. Mijn veronderstelling is dat die mensen geen internettoegang hebben en misschien niet het onderwijssysteem hebben gevolgd. De natuurlijke interface hier is [spraak]. Zo krijg je technologie in het derde deel van de wereld dat vandaag de dag geen interactie heeft met technologie. We hebben in ontwikkelingslanden veel interesse gezien voor voice first-toepassingen, om die segmenten van de samenleving te krijgen die misschien eerder geen toegang hadden, niet alleen vanuit kostenoogpunt maar ook vanuit comfortoogpunt."

Marktfragmentatie

Het gevaar van een markt die net zo snel groeit als spraak, is dat deze snel extreem gefragmenteerd kan raken, vertelde Vikram Shirastava, senior directeur van IoT bij Knowles aan EE Times - en niet alleen langs hardwarelijnen.

Vikram Shrivastava (Bron:Knowles)

"De markt wordt gefragmenteerd op basis van bijvoorbeeld welke engine voor spraakherkenning wordt gebruikt?" zei Shirastava. "De markt raakt gefragmenteerd, afhankelijk van of je integreert met een TV SoC of dat het een simpele MCU is, bijvoorbeeld een magnetron. Je krijgt fragmentatie op basis van besturingssystemen of op basis van de akoestische omgeving - is het alleen thuis? Is het een deurbel buiten? Er kan geen one-size-fits-all oplossing zijn. Je moet uitzoeken wat de gemene delers zijn in elk van deze branches, en proberen de integratie van spraak dienovereenkomstig aan te pakken."

Knowles heeft een op DSP gebaseerde spraakbesturingsoplossing waarvan het van plan is versies te introduceren voor verschillende branches. De aanpak is om fragmenten van de markt te groeperen in fragmenten met een gemeenschappelijke noemer - thuisbediening, tv-soundbars en afstandsbedieningen kunnen bijvoorbeeld in dezelfde groep vallen - en vervolgens een oplossing te ontwikkelen die is geoptimaliseerd voor die groep toepassingen. Shirastava noemt deze aanpak 'één niveau lager dan kant-en-klaar', wat de schaalbaarheid kant-en-klaar biedt, maar met wat extra flexibiliteit.

"We moeten een paar verschillende releases hebben die een bepaald aspect van die fragmentatie aanpakken om ons in staat te stellen de verticale markten te dekken die we willen nastreven," zei hij.

De recente release van Knowles, de AISonic Bluetooth-standaardoplossing, is een ontwikkelingskit voor spraakherkenning in Bluetooth-verbonden apparaten zoals slimme luidsprekers, slimme apparaten voor thuisgebruik, wearables en spraakassistenten in voertuigen. De kit is gebaseerd op de IA8201 dual-core DSP-silicium van Knowles, die speciaal is ontworpen voor neurale netwerkverwerking met een veel lager vermogen dan een applicatieprocessor. De chip kan bijvoorbeeld afzonderlijke AI-modellen verwerken voor het spotten van trefwoorden, bronclassificatie, bundelvorming, akoestische echo-onderdrukking (AEC) en bronrichtingschatting tegelijkertijd, in minder dan 50 mW. Dit wordt mogelijk gemaakt door een instructieset-uitbreiding van bijna 400 aangepaste instructies voor audio- en AI-verwerking op de Tensilica DSP-kernen, waardoor de klokfrequentie kan worden verlaagd om energie te besparen.

Sugr's iOttie Aivo Connect smartphone-houder voor voertuigen gebruikt de IA8201 van Knowles voor spraakmogelijkheden in de auto. Het heeft een ingebouwde Alexa-stemassistent. (Bron:Knowles)

Wordt spraak uiteindelijk de standaard gebruikersinterface voor de meeste soorten consumentenelektronica? Het ziet er zeker zo uit. Een combinatie van geavanceerde, efficiënte AI-algoritmen voor spraakbesturing, ontwikkelomgevingen die ontwikkelaars in staat stellen om eenvoudig spraak te integreren, en een groeiend ecosysteem van energie- en kostenefficiënte hardwareoplossingen is ontstaan om dit allemaal mogelijk te maken.

>> Dit artikel is oorspronkelijk gepubliceerd op onze zustersite, EE Tijden.

Referentieontwerp voor slimme badges Bluetooth SoC Stand-byvermogen van apparaten minimaliseren

Internet of Things-technologie

Ingebed

Sensor

Cloud computing

Internet of Things-technologie