Edge AI-chip ziet af van multi-accumulate array om 55 TOPS/W te bereiken

Een startup in Silicon Valley beweert dat het de wiskunde van neurale netwerken opnieuw heeft uitgevonden en een complementaire edge AI-chip heeft geproduceerd, al bemonsterd, die niet de gebruikelijke grote reeks multi-accumulerende eenheden gebruikt. De chip kan het equivalent van 4 TOPS draaien, met een indrukwekkend stroomverbruik van 55 TOPS/W, en volgens het bedrijf bereikt hij datacenterklasse-inferentie in minder dan 20 mW (YOLOv3 bij 30 fps).

Het in San Jose gevestigde Perceive bevond zich tot nu toe in de super-stealth-modus - als een spin-out van Xperi is het volledig gefinancierd door zijn moedermaatschappij sinds de officiële oprichting twee jaar geleden. Het team bestaat uit 41 mensen, en een vergelijkbaar aantal werkt binnen Xperi aan apps voor de chip. Oprichtend CEO Steve Teig is ook CTO van Xperi; hij was eerder oprichter en CTO van Tabula, de 3D programmeerbare logische startup die vijf jaar geleden zijn deuren sloot, en daarvoor CTO van Cadence.

Teig legde uit dat het oorspronkelijke idee was om Xperi's klassieke kennis van beeld- en audioverwerking te combineren met machine learning. Xperi is eigenaar van merken zoals DTS, IMAX Enhanced en HD Radio. Zijn technologieportfolio omvat beeldverwerkingssoftware voor functies zoals rode ogen en beeldstabilisatie die veel worden gebruikt in digitale camera's, plus audioverwerkingssoftware voor Blu-Ray-discspelers.

Steve Teig (Afbeelding:Perceive)

“We begonnen met een schoon vel papier en gebruikten informatietheorie om te vragen:welke berekeningen doen neurale netwerken eigenlijk? En is er een andere manier om die berekening te benaderen die zou kunnen veranderen wat mogelijk is [aan de rand]?” zei Teig. "Na een paar jaar dit werk te hebben gedaan, ontdekten we dat het zo was, en toen besloten... we moesten een chip maken die deze ideeën belichaamt."

Het idee dat Teig aan het Xperi-bord presenteerde, was om een bedrijf voort te zetten om een chip te maken die zinvolle conclusies kan trekken in edge-apparaten met een stroombudget van 20mW. Het resultaat, een 7x7 mm-chip genaamd Ergo, kan 4 TOPS draaien zonder extern RAM (in feite draait het het equivalent van wat een GPU met een rating van 4 TOPS kan bereiken, legde Teig uit). Ergo ondersteunt vele stijlen van neurale netwerken, waaronder convolutionele netwerken (CNN's) en terugkerende netwerken (RNN's), in tegenstelling tot veel oplossingen op de markt die op maat zijn gemaakt voor CNN's. Ergo kan zelfs meerdere heterogene netwerken tegelijk runnen.

"Het enige dat het aantal netwerken dat we kunnen uitvoeren beperkt, is het totale geheugen dat nodig is voor de combinatie", zei Teig, eraan toevoegend dat Perceive heeft aangetoond dat gelijktijdig YOLOv3 of M2Det wordt uitgevoerd - met 60 of 70 miljoen parameters - plus ResNet 28 met enkele miljoenen parameters, plus een LSTM of RNN voor spraak- en audioverwerking. In een toepassing kan dit tegelijkertijd overeenkomen met beeldvorming en audio-inferentie.

Perceive beweert ook dat zijn Ergo-chip buitengewoon energiezuinig is en 55 TOPS/W haalt. Dit cijfer ligt een orde van grootte boven wat sommige concurrenten beweren. Volgens de cijfers van Perceive draait het YOLOv3, een groot netwerk met 64 miljoen parameters, met 30 frames per seconde en een verbruik van slechts 20 mW.

Waarneming beweert dat de efficiëntie van zijn Ergo-chip tot 55 TOPS/W is, met YOLOv3 op 30 fps met slechts 20 mW (Afbeelding:Perceive)

Deze energie-efficiëntie is te danken aan een aantal agressieve power-gating- en clock-gating-technieken, die gebruikmaken van de deterministische aard van neurale netwerkverwerking - in tegenstelling tot andere soorten code zijn er geen vertakkingen, dus de timing is bekend tijdens het compileren. Hierdoor kan Perceive precies aangeven wat wanneer moet worden ingeschakeld.

"In een batterijgevoede omgeving kan [de chip] letterlijk uit zijn - nul milliwatt - en een soort microwatt-bewegingssensor of analoge microfoon hebben om iets te detecteren dat van belang kan zijn," zei Teig. "We kunnen wakker worden, een gigantisch neuraal netwerk van datacenterklasse laden en het in ongeveer 50 milliseconden uitvoeren, inclusief decodering. We laten dus slechts ongeveer twee videoframes op de vloer liggen.”

Maar zorgvuldig hardware-ontwerp is slechts een deel van het plaatje.

Informatietheorie

"We hebben een andere manier bedacht om de onderliggende berekening zelf en de bijbehorende rekenkunde weer te geven," zei Teig. "We vertegenwoordigen het netwerk zelf op een nieuwe manier, en dat is waar ons voordeel vandaan komt."

Perceive begon met informatietheorie - een tak van wetenschap die wiskundige manieren omvat om signaal van ruis te onderscheiden - en gebruikte zijn concepten om te kijken hoeveel berekeningen nodig zijn om het signaal uit de ruis te halen. Teig gebruikt als voorbeeld een objectdetectienetwerk.

"Je geeft het netwerk miljoenen pixels en het enige wat je wilt weten is, is er een hond op deze foto of niet?" hij zei. "Al het andere op de foto is ruis, behalve hondachtigheid [het signaal]. Informatietheorie maakt het meetbaar - hoeveel moet je weten [om te zien of er een hond op de foto staat]? Je kunt het zelfs wiskundig precies maken.'

Zoals Teig het beschrijft, kunnen reguliere neurale netwerken generaliseren op basis van het zien van veel foto's van honden omdat ze tenminste een deel van het signaal in de ruis hebben gevonden, maar dit is op een empirische manier gedaan in plaats van met een wiskundig rigoureuze benadering. Dit betekent dat ruis met het signaal wordt meegevoerd, waardoor mainstream neurale netwerken erg groot worden en ze vatbaar zijn voor vijandige voorbeelden en andere trucs.

"Hoe meer je wiskundig kunt zijn over het uitzoeken welke onderdelen moeten worden bewaard en welke onderdelen gewoon ruis zijn, hoe beter je kunt generaliseren en hoe minder andere overhead je hoeft mee te nemen," zei Teig. "Ik zou beweren dat zelfs de huidige neurale netwerken signalen uit ruis halen, ze doen het alleen niet zo rigoureus en als gevolg daarvan dragen ze extra gewicht met zich mee."

Dit informatietheoretische standpunt vormt de basis voor Perceives machine learning-strategie, die neurale netwerken op een nieuwe manier representeert.

"Dit is echt een huwelijk tussen een informatietheoretisch perspectief op het toepassen van machine learning en een chip die deze ideeën belichaamt," zei Teig.

Chip-architectuur

Met Teigs achtergrond als CTO van Tabula, zou je hardware verwachten op basis van programmeerbare logica, maar dat is hier niet het geval.

"Ik ben sterk beïnvloed door het denken over programmeerbare logica gedurende een decennium en hoe je rijke interconnect-architecturen kunt bouwen om krachtige, zeer parallelle berekeningen mogelijk te maken, omdat veel van wat er op een FPGA gebeurt ook enorm parallel is en zeer intensief in zijn interactie tussen berekening en geheugen, "zei Teig. “Dat werk heeft mijn werk bij Perceive zeker beïnvloed, maar wat we hebben is niet per se programmeerbare logica . Het is beïnvloed door die manier van denken, maar de architectuur zelf draait om neurale netwerken.”

De neurale netwerkstructuur van Perceive is schaalbaar, waarbij de initiële chip Ergo vier rekenclusters heeft, elk met zijn eigen geheugen. Hoewel exacte details nog niet bekend zijn, zei Teig wel dat deze clusters aanzienlijk verschillen van alles wat wordt aangetroffen in andere AI-versnellers, die doorgaans arrays van multi-accumulate units (MAC's) gebruiken om puntproducten van vectoren en matrices te berekenen.

De technologie van Perceive is gebaseerd op het opnieuw uitvinden van de wiskunde van neurale netwerken met behulp van technieken uit de informatietheorie (Afbeelding:Perceive)

"Dat doen we niet", zei Teig. “We hebben geen array van MAC's. Dientengevolge ... zijn we 20 tot 100 X zo energiezuinig als al het andere op de markt, de reden daarvoor is dat iedereen hetzelfde doet en wij niet. Onze representatie van de netwerken is vrij nieuw en dat heeft ons in staat gesteld om zo'n grote efficiëntie te bereiken. Dat, plus de machine learning-technologie die deze representatie van de netwerken kan vinden en de netwerken kan trainen op een manier die ze compatibel maakt met wat de chip wil zien.”

Beeld en geluid

Ergo kan twee camera's ondersteunen en bevat een beeldverwerkingseenheid die werkt als een pre-processor, die zaken afhandelt zoals het dewarpen van fisheye-lensfoto's, gammacorrectie, witbalans en bijsnijden.

"Het is niet luxueus, maar de voorbewerking die duidelijk handig is om te doen in hardware, doen we in hardware," zei Teig. "En we hebben ook het audio-equivalent - we kunnen meerdere stereomicrofoons gebruiken en bijvoorbeeld beam-forming doen."

Er is ook een Synopsis ARC-microprocessor met een DSP-blok dat ook kan worden gebruikt voor pre-processing, plus een beveiligingsblok, ook van Synopsis.

“Een van de dingen die we hebben gedaan, is absoluut alles versleutelen om een beveiligingsniveau in een IoT-omgeving te behouden. We versleutelen de netwerken, versleutelen de code die op de microprocessor draait, versleutelen de interfaces, versleutelen alles,” zei Teig.

De chip beschikt over geschikte I/O's voor sensoren buiten beeld en geluid, en ondersteunt een extern Flash-geheugen en/of microprocessor die over-the-air updates mogelijk maakt. Dit kan worden gebruikt om de neurale netwerken die op de chip zijn geladen bij te werken, of om verschillende netwerken te laden, indien nodig.

Ergo samplet nu samen met een bijbehorend referentiebord. Massaproductie wordt verwacht in Q2 2020.

SIMO PMIC vermindert de ontwerpvoetafdruk en het stroomverbruik Draadloze zendontvangers gebruiken UWB voor gegevensoverdracht met laag vermogen en lage latentie

Ingebed

Sensor

Cloud computing

Internet of Things-technologie