AI-chip gaat online via cloudservice

Groq's tensor streaming processor (TSP) silicium is nu beschikbaar om de AI-workloads van klanten in de cloud te versnellen. Cloudserviceprovider Nimbix biedt nu machine learning-versnelling op Groq-hardware als een on-demand service alleen voor "geselecteerde klanten".

Hoewel er verschillende startups zijn die AI-silicium voor het datacenter bouwen, voegt Groq zich nu bij Graphcore als de enige twee met versnellers die commercieel beschikbaar zijn voor klanten om te gebruiken als onderdeel van een cloudservice. Graphcore kondigde eerder aan dat zijn accelerators beschikbaar zijn als onderdeel van Microsoft Azure.

"De vereenvoudigde verwerkingsarchitectuur van Groq is uniek en biedt ongekende, deterministische prestaties voor rekenintensieve workloads, en is een geweldige aanvulling op ons cloudgebaseerde AI- en Deep Learning-platform", zegt Steve Hebert, CEO van Nimbix.

Groq is pas de tweede AI-accelerator-startup die zijn hardware beschikbaar stelt in de cloud (Afbeelding:Groq)

De TSP-chip van Groq, die afgelopen herfst werd gelanceerd, is in staat tot een enorme 1.000 TOPS (1 peta-bewerkingen per seconde). Recente resultaten die door het bedrijf zijn gepubliceerd, laten zien dat de chip 21.700 inferenties per seconde kan behalen voor ResNet-50 v2-inferentie, wat volgens Groq de prestaties van de huidige GPU-gebaseerde systemen meer dan verdubbelt. Deze resultaten suggereren dat de architectuur van Groq een van de snelste, zo niet de snelste, commercieel beschikbare neurale netwerkprocessor is.

"Deze ResNet-50-resultaten zijn een bevestiging dat Groq's unieke architectuur en benadering van machine learning-versnelling aanzienlijk snellere inferentieprestaties levert dan onze concurrenten", zegt Jonathan Ross, medeoprichter en CEO van Groq. "Deze real-world proof-punten, gebaseerd op industriestandaard benchmarks en niet op simulaties of hardware-emulatie, bevestigen de meetbare prestatieverbeteringen voor machine learning en kunstmatige-intelligentietoepassingen die mogelijk worden gemaakt door de technologieën van Groq."

Groq zegt dat zijn architectuur het enorme parallellisme kan bereiken dat nodig is voor deep learning-versnelling zonder de synchronisatie-overhead van traditionele CPU- en GPU-architecturen. Besturingsfuncties zijn uit het silicium verwijderd en in plaats daarvan aan de compiler gegeven, als onderdeel van Groq's softwaregestuurde aanpak. Dit leidt tot een volledig voorspelbare, deterministische operatie die wordt georkestreerd door de compiler, waardoor de prestaties volledig worden begrepen tijdens het compileren.

Een ander belangrijk kenmerk om op te merken is dat het prestatievoordeel van Groq niet afhankelijk is van batching - een veelgebruikte techniek in het datacenter waar meerdere gegevensmonsters tegelijk worden verwerkt om de doorvoer te verbeteren. Volgens Groq kan de architectuur topprestaties bereiken, zelfs bij batch =1, een veelvoorkomende vereiste voor inferentietoepassingen die mogelijk werken aan een gegevensstroom die in realtime arriveert. Hoewel de TSP-chip van Groq een matig latentievoordeel van 2,5x biedt ten opzichte van GPU's bij grote batchgroottes, ligt het voordeel bij batch =1 dichter bij 17x, aldus het bedrijf.

Linux-bord combineert op hardware gebaseerde beveiliging met uitgebreide beveiligingssuite Meettool helpt power-optimalisatie van embedded systemen

Ingebed

Sensor

Cloud computing

Internet of Things-technologie