Gespecialiseerde processors versnellen eindpunt AI-workloads

Hoewel de versnelling van AI- en ML-applicaties nog een relatief nieuw gebied is, is er een verscheidenheid aan processors die opkomen om bijna elke neurale netwerkbelasting te versnellen. Van de processorreuzen tot enkele van de nieuwste startups in de industrie, ze bieden allemaal iets anders - of dat nu gericht is op verschillende verticale markten, toepassingsgebieden, energiebudgetten of prijspunten. Hier is een momentopname van wat er vandaag op de markt is.

Applicatieverwerkers

Intel Movidius Myriad X
De Myriad X, ontwikkeld door de Ierse startup Movidius die in 2016 door Intel werd gekocht, is de derde generatie vision-processing-eenheid van het bedrijf en de eerste met een speciale rekenmachine voor neurale netwerken, die 1 tera-bewerkingen per seconde (TOPS) aan toegewijde diep neuraal netwerk (DNN) berekenen. De neurale compute-engine werkt rechtstreeks samen met een intelligente geheugenstructuur met hoge doorvoer om geheugenknelpunten bij het overbrengen van gegevens te voorkomen. Het ondersteunt FP16- en INT8-berekeningen. De Myriad X beschikt ook over een cluster van 16 eigen SHAVE-kernen en verbeterde en uitgebreide visieversnellers.

De Myriad X is beschikbaar in Intel's Neural Compute Stick 2, in feite een evaluatieplatform in de vorm van een USB-stick. Het kan op elk werkstation worden aangesloten, zodat AI- en computervisie-applicaties zeer snel kunnen worden gebruikt op de speciale Movidius-hardware.

NXP Semiconductors i.MX 8M Plus
De i.MX 8M Plus is een heterogene applicatieprocessor met speciale neurale netwerkversneller IP van VeriSilicon (Vivante VIP8000). Het biedt 2,3 TOPS aan versnelling voor inferentie in eindpuntapparaten in het consumenten- en industriële internet der dingen (IIoT), genoeg voor identificatie van meerdere objecten, spraakherkenning van 40.000 woorden of zelfs medische beeldvorming (MobileNet v1 met 500 afbeeldingen per seconde).

Naast de neurale netwerkprocessor beschikt de i.MX 8M Plus ook over een quad-core Arm Cortex-A53-subsysteem dat draait op 2 GHz, plus een Cortex-M7 realtime subsysteem.

Voor vision-toepassingen zijn er twee beeldsignaalprocessors die twee high-definition camera's voor stereovisie of een enkele 12-megapixel (MP) camera ondersteunen. Voor spraak bevat het apparaat een 800-MHz HiFi4-audio digitale signaalprocessor (DSP) voor voor- en nabewerking van spraakgegevens.

NXP's i.MX 8M Plus is de eerste applicatieprocessor van het bedrijf met een speciale neurale netwerkversneller. Het is ontworpen voor IoT-toepassingen. (Afbeelding:NXP Semiconductors)

XMOS xcore.ai
De xcore.ai is ontworpen om spraakbesturing mogelijk te maken in toepassingen met kunstmatige intelligentie of things (AIoT). Dit apparaat is een crossover-processor (met de prestaties van een applicatieprocessor en energiezuinige, realtime werking van een microcontroller) en is ontworpen voor machinale inferentie op spraaksignalen.

Het is gebaseerd op de gepatenteerde Xcore-architectuur van XMOS, die zelf is gebouwd op bouwstenen die logische kernen worden genoemd en die kunnen worden gebruikt voor I/O, DSP, besturingsfuncties of AI-versnelling. Er zijn 16 van deze kernen op elke xcore.ai-chip en ontwerpers kunnen kiezen hoeveel ze aan elke functie willen toewijzen. Door verschillende functies toe te wijzen aan de logische kernen in firmware, kan een "virtuele SoC" worden gemaakt, volledig geschreven in software. XMOS heeft vectorpijplijnmogelijkheden toegevoegd aan de Xcore voor machine learning-workloads.

De xcore.ai ondersteunt 32-bits, 16-bits, 8-bits en 1-bits (gebinariseerde) netwerken en levert 3.200 MIPS, 51,2 GMACC's en 1.600 MFLOPS. Het heeft 1 Mbyte ingebed SRAM plus een low-power DDR-interface voor uitbreiding.

XMOS's xcore.ai is gebaseerd op een eigen architectuur en is speciaal ontworpen voor AI-workloads in spraakverwerkingstoepassingen. (Afbeelding:XMOS)

Automotive SoC

Texas Instruments Inc. TDA4VM
De TDA4VM maakt deel uit van de Jacinto 7-serie voor geavanceerde autorijhulpsystemen (ADAS) en is TI's eerste system-on-chip (SoC) met een speciale deep-learning accelerator op de chip. Dit blok is gebaseerd op de C7x DSP plus een in-house ontwikkelde matrix multiplier accelerator (MMA), die 8 TOPS kan bereiken.

De SoC kan een videostream van een camera aan de voorzijde met maximaal 8 MP of een combinatie van vier tot zes 3-MP-camera's plus radar-, LiDAR- en ultrasone sensoren aan. De MMA kan bijvoorbeeld worden gebruikt om sensorfusie uit te voeren op deze ingangen in een geautomatiseerd parkeersysteem. De TDA4VM is ontworpen voor ADAS-systemen tussen 5 en 20 W.

Het apparaat is nog in pre-productie, maar er zijn nu ontwikkelkits beschikbaar.

De TI TDA4VM is bedoeld voor complexe automotive ADAS-systemen waarmee voertuigen hun omgeving kunnen waarnemen. (Afbeelding:Texas Instruments Inc.)

GPU

Nvidia Corp. Jetson Nano
De bekende Jetson Nano van Nvidia is een kleine maar krachtige grafische verwerkingseenheid (GPU) -module voor AI-toepassingen in eindpuntapparaten. Gebouwd op dezelfde Maxwell-architectuur als grotere leden van de Jetson-familie (AGX Xavier en TX2), heeft de GPU op de Nano-module 128 cores en is in staat tot 0,5 TFLOPS, genoeg om meerdere neurale netwerken op verschillende datastromen van hoge resolutie beeldsensoren, volgens het bedrijf. Tijdens gebruik verbruikt hij slechts 5 W. De module beschikt ook over een quad-core Arm Cortex-A57 CPU.

Net als andere onderdelen in het assortiment van Nvidia, gebruikt de Jetson Nano CUDA X, Nvidia's verzameling versnellingsbibliotheken voor neurale netwerken. Voordelige Jetson Nano-ontwikkelkits zijn overal verkrijgbaar.

Nvidia's Jetson Nano-module bevat een krachtige GPU met 128 cores voor AI aan de rand. (Afbeelding:Nvidia Corp.)

Co-verwerkers van consumenten

Kneron Inc. KL520
Het eerste aanbod van de Amerikaans-Taiwanese startup Kneron is de KL520 neurale netwerkprocessor, ontworpen voor beeldverwerking en gezichtsherkenning in toepassingen zoals slimme huizen, beveiligingssystemen en mobiele apparaten. Het is geoptimaliseerd om convolutionele neurale netwerken (CNN's) uit te voeren, het type dat tegenwoordig veel wordt gebruikt bij beeldverwerking.

De KL520 kan 0,3 TOPS gebruiken en verbruikt 0,5 W (gelijk aan 0,6 TOPS/W), wat volgens het bedrijf voldoende is voor nauwkeurige gezichtsherkenning, aangezien de MAC-efficiëntie van de chip hoog is (meer dan 90%). De chiparchitectuur is herconfigureerbaar en kan worden aangepast aan verschillende CNN-modellen. De complementaire compiler van het bedrijf maakt ook gebruik van compressietechnieken om grotere modellen binnen de bronnen van de chip te laten draaien om energie en kosten te besparen.

De KL520 is nu verkrijgbaar en ook te vinden op een acceleratorkaart van fabrikant AAEON (de M2AI-2280-520).

Kneron's KL520 gebruikt een herconfigureerbare architectuur en slimme compressie om beeldverwerking uit te voeren op mobiele apparaten en consumentenapparaten. (Afbeelding:Kneron Inc.)

Gyrfalcon Lightpeeur 5801
De Lightpeeur 5801 van Gyrfalcon is ontworpen voor de consumentenelektronicamarkt en biedt 2,8 TOPS bij een stroomverbruik van 224 mW (gelijk aan 12,6 TOPS/W) met een latentie van 4 ms. Het bedrijf gebruikt een processor-in-memory-techniek die bijzonder energiezuinig is in vergelijking met andere architecturen. Stroomverbruik kan eigenlijk worden afgeruild met kloksnelheid door de kloksnelheid te variëren tussen 50 en 200 MHz. Lightpeeur 5801 bevat 10 MB geheugen, dus hele modellen passen op de chip.

Dit onderdeel is de vierde productiechip van het bedrijf en is al te vinden in LG's Q70 mid-range smartphone, waar het inferentie voor camera-effecten afhandelt. Een ontwikkelkit voor USB-sticks, de 5801 Plai Plug, is nu beschikbaar.

Ultra-laag vermogen

Eta Compute ECM3532
Het eerste productieproduct van Eta Compute, de ECM3532, is ontworpen voor AI-versnelling in batterijgevoede of energieoogstende ontwerpen voor IoT. Always-on toepassingen in beeldverwerking en sensorfusie kunnen worden bereikt met een stroombudget van slechts 100 µW.

De chip heeft twee kernen:een Arm Cortex-M3-microcontrollerkern en een NXP CoolFlux DSP. Het bedrijf gebruikt een gepatenteerde spannings- en frequentieschalingstechniek, die elke klokcyclus aanpast, om elke laatste druppel stroom uit beide kernen te wringen. Machine learning-workloads kunnen door beide kernen worden verwerkt (sommige voice-workloads zijn bijvoorbeeld beter geschikt voor de DSP).

Monsters van de ECM3532 zijn nu beschikbaar en de massaproductie zal naar verwachting starten in het tweede kwartaal van 2020.

Syntiant Corp. NDP100
De NDP100-processor van de Amerikaanse startup Syntiant is ontworpen voor machinelerende gevolgtrekkingen over spraakopdrachten in toepassingen met weinig stroom. Het op processor-in-memory gebaseerde silicium verbruikt minder dan 140 µW actief vermogen en kan modellen draaien voor het spotten van trefwoorden, detectie van wake-woorden, luidsprekeridentificatie of classificatie van gebeurtenissen. Het bedrijf zegt dat dit product zal worden gebruikt om handsfree gebruik van consumentenapparaten zoals oordopjes, gehoorapparaten, smartwatches en afstandsbedieningen mogelijk te maken. Ontwikkelingskits zijn nu beschikbaar.

Het NDP100-apparaat van Syntiant is ontworpen voor spraakverwerking in ultra-low-power toepassingen. (Afbeelding:Syntiant Corp.)

GreenWaves Technologies GAP9
GAP9, de eerste ultra-low-power applicatieprocessor van de Franse startup GreenWaves, heeft een krachtig rekencluster van negen RISC-V-cores waarvan de instructieset sterk is aangepast om het stroomverbruik te optimaliseren. Het beschikt over bidirectionele meerkanaals audio-interfaces en 1,6 MB intern RAM.

GAP9 kan neurale netwerkworkloads aan voor afbeeldingen, geluiden en trillingsdetectie in IoT-apparaten op batterijen. De cijfers van GreenWaves hebben GAP9 met MobileNet V1 op 160 × 160 afbeeldingen, met een kanaalschaling van 0,25 in slechts 12 ms en met een stroomverbruik van 806 μW/frame/seconde.

Silicon Labs om draadloze portfolio te versterken Temperatuur-/vochtigheidssensor biedt strikte lineaire respons

Ingebed

Sensor

Cloud computing

Internet of Things-technologie