Hardwareversnellers dienen voor AI-applicaties

Hardwareversnellers - gespecialiseerde apparaten die worden gebruikt om specifieke taken uit te voeren, zoals het classificeren van objecten - worden steeds vaker ingebed in system-on-chips (SoC's) die verschillende AI-toepassingen bedienen. Ze helpen bij het creëren van nauw geïntegreerde aangepaste processors die minder stroom, lagere latentie, hergebruik van gegevens en gegevenslocatie bieden.

Om te beginnen is het noodzakelijk om de AI-algoritmen hardwarematig te versnellen. AI-versnellers zijn specifiek ontworpen om snellere verwerking van AI-taken mogelijk te maken; ze voeren bepaalde taken uit op een manier die niet haalbaar is met traditionele processors.

Bovendien kan geen enkele processor voldoen aan de uiteenlopende behoeften van AI-toepassingen, en hier bieden hardwareversnellers die zijn ingebouwd in AI-chips prestatie-, energie-efficiëntie en latentievoordelen voor specifieke workloads. Daarom beginnen de aangepaste architecturen op basis van AI-versnellers het gebruik van CPU's en GPU's voor AI-toepassingen uit te dagen.

Ontwerpers van AI-chips moeten bepalen wat ze moeten versnellen, hoe ze dit moeten versnellen en hoe ze die functionaliteit kunnen verbinden met het neurale netwerk. Hieronder vindt u een momentopname van de belangrijkste branchetrends die het gebruik van hardwareversnellers in evoluerende AI-workloads bepalen. Het begint onvermijdelijk met AI-versnellers die beschikbaar zijn voor integratie in een verscheidenheid aan AI-chips en -kaarten.

AI-accelerator-IP's

Hardwareversnellers worden veelvuldig gebruikt in AI-chips om data-intensieve taken zoals computervisie en deep learning te segmenteren en te versnellen voor zowel training als inferentietoepassingen. Deze AI-kernen versnellen de neurale netwerken op AI-frameworks zoals Caffe, PyTorch en TensorFlow.

Gyrfalcon Technology Inc. (GTI) ontwerpt AI-chips en levert AI-versnellers voor gebruik in aangepaste SoC-ontwerpen via een IP-licentiemodel. De in Milpitas, Californië gevestigde AI-upstart biedt de Lightpeeur 2801 en 2803 AI-versnellers voor respectievelijk edge- en cloud-applicaties.

Het is belangrijk op te merken dat Gyrfalcon ook AI-chips heeft ontwikkeld rond deze hardwareversnellers, en dat maakt deze AI-versneller-IP's siliciumbewezen. De 2801 AI-chip voor edge-ontwerpen van het bedrijf voert 9,3 tera-bewerkingen per seconde per watt (TOPS/W) uit, terwijl de 2803 AI-chip voor datacentertoepassingen 24 TOPS/W kan leveren.

Naast IP-ontwikkeltools en technische documentatie biedt Gyrfalcon AI-ontwerpers USB 3.0-dongles voor het maken van modellen, chipevaluatie en proof-of-concept-ontwerpen. Licentiehouders kunnen deze dongles gebruiken op Windows- en Linux-pc's en op hardwareontwikkelingskits zoals Raspberry Pi.

Hardware-architectuur

Het uitgangspunt van AI-versnellers is om algoritmen sneller dan ooit te verwerken met zo min mogelijk stroom. Ze voeren versnellingen uit aan de edge, in het datacenter of ergens daar tussenin. En AI-versnellers kunnen deze taken uitvoeren in ASIC's, GPU's, FPGA's, DSP's of een hybride versie van deze apparaten.

Dat leidt onvermijdelijk tot verschillende hardwareversnellerarchitecturen die zijn geoptimaliseerd voor machine learning (ML), deep learning, natuurlijke taalverwerking en andere AI-workloads. Sommige ASIC's zijn bijvoorbeeld ontworpen om op diepe neurale netwerken (DNN's) te draaien, die op hun beurt op een GPU of een andere ASIC kunnen zijn getraind.

Wat AI-acceleratorarchitectuur cruciaal maakt, is het feit dat AI-taken enorm parallel kunnen lopen. Bovendien is AI-acceleratorontwerp verweven met multi-core implementatie, en dat benadrukt het cruciale belang van AI-acceleratorarchitectuur.

Vervolgens snijden de AI-ontwerpen de algoritmen steeds fijner en fijner door steeds meer versnellers toe te voegen die speciaal zijn gemaakt om de efficiëntie van het neurale netwerk te vergroten. Hoe specifieker de use case, hoe meer mogelijkheden er zijn voor het granulair gebruik van vele soorten hardwareversnellers.

Hier is het vermeldenswaard dat naast AI-versnellers die zijn ingebouwd in aangepaste chips, ook versnellerkaarten worden gebruikt om de prestaties te verbeteren en de latentie in cloudservers en on-premise datacenters te verminderen. De Alveo-versnellerkaarten van Xilinx Inc. kunnen bijvoorbeeld het zoeken in databases, videoverwerking en gegevensanalyse radicaal versnellen in vergelijking met CPU's (Fig. 1 ).

Afb. 1:De Alveo U250-versnellerkaarten verhogen de real-time inferentiedoorvoer met 20× in vergelijking met high-end CPU's en verminderen sub-2-ms latentie met meer dan 4× in vergelijking met versnellers met vaste functie zoals high-end GPU's. (Afbeelding:Xilinx Inc.)

Programmeerbaarheid

Er vinden veel dynamische veranderingen plaats in AI-ontwerpen en als gevolg daarvan veranderen software-algoritmen sneller dan AI-chips kunnen worden ontworpen en vervaardigd. Het onderstreept een belangrijke uitdaging voor hardwareversnellers die in dergelijke gevallen apparaten met een vaste functie worden.

Er moet dus een soort programmeerbaarheid zijn in versnellers die ontwerpers in staat stelt zich aan te passen aan veranderende behoeften. Dankzij de ontwerpflexibiliteit die gepaard gaat met programmeerfuncties, kunnen ontwerpers ook een breed scala aan AI-workloads en neurale netwerktopologieën aan.

Intel Corp. heeft gehoor gegeven aan deze oproep voor programmeerbaarheid in AI-ontwerpen door een in Israël gevestigde ontwikkelaar van programmeerbare deep-learningversnellers over te nemen voor ongeveer $ 2 miljard. Habana's Gaudi-processor voor training en Goya-processor voor inferentie bieden een eenvoudig te programmeren ontwikkelomgeving (Fig. 2 ).

Afb. 2:Dit is hoe ontwikkelplatforms en tools AI-chipontwerpen versnellen met behulp van de Gaudi-trainingsversnellers. (Afbeelding:Habana)

AI aan de rand

Het is inmiddels duidelijk dat de markt voor AI-inferentie veel groter is dan AI-training. Dat is de reden waarom de industrie getuige is van een verscheidenheid aan chips die worden geoptimaliseerd voor een breed scala aan AI-workloads, variërend van training tot inferentie.

Dat brengt microcontrollers (MCU's) in het AI-ontwerpgebied dat anders meestal werd geassocieerd met krachtige SoC's. Deze MCU's bevatten AI-versnellers om industriële en IoT edge-apparaten met beperkte middelen te bedienen in toepassingen zoals objectdetectie, gezichts- en gebarenherkenning, natuurlijke taalverwerking en voorspellend onderhoud.

Neem het voorbeeld van Arms Ethos U-55 microNPU ML-versneller die NXP Semiconductors integreert in zijn Cortex-M-gebaseerde microcontrollers, crossover-MCU's en realtime subsystemen in applicatieprocessors. De Ethos U-55-versneller werkt samen met de Cortex-M-kern om een kleine voetafdruk te bereiken. De geavanceerde compressietechnieken besparen energie en verkleinen de ML-modelgroottes aanzienlijk om uitvoering van neurale netwerken mogelijk te maken die voorheen alleen op grotere systemen draaiden.

De eIQ ML-ontwikkelomgeving van NXP biedt AI-ontwerpers een keuze uit open-source inferentie-engines. Afhankelijk van de specifieke toepassingsvereisten kunnen deze AI-versnellers worden opgenomen in een verscheidenheid aan rekenelementen:CPU's, GPU's, DSP's en NPU's.

Nieuwe Microchip MCU voegt veilige opstartbescherming toe tegen externe Flash Ontwikkelingsborden vereenvoudigen veilige IoT-cloudconnectiviteit

Ingebed

Sensor

Cloud computing

Internet of Things-technologie