De huidige focus op AI-hardware is misleidend, zegt AI-pionier
"Het is echt moeilijk om te slagen met exotische hardware", vertelde Facebook Chief AI Scientist Yann Le Cun het publiek voor zijn keynote speech op NeurIPS. Tijdens de wereldwijde bijeenkomst van AI-experts in Vancouver, Canada, in december, onderzocht Le Cun de geschiedenis van gespecialiseerde computerchips voor het verwerken van neurale netwerkworkloads, bood een glimp van waar Facebook aan werkt en deed enkele voorspellingen voor de toekomst van deep- leerhardware.
Oude geschiedenis
Le Cun is een gerenommeerde visionair op het gebied van AI, die in de jaren tachtig en negentig vooropliep in onderzoek naar neurale netwerken. Als onderzoeker bij Bell Labs aan het eind van de jaren tachtig werkte hij met de vroegste typen speciale neurale netwerkprocessors, die bestonden uit weerstandsarrays en die werden gebruikt om matrixvermenigvuldiging uit te voeren. Toen neurale netwerken eind jaren negentig en begin jaren 2000 uit de gratie raakten, was Le Cun een van de weinige wetenschappers die in het veld bleven werken. In zijn keynote deelde hij enkele dingen die hij in die tijd leerde over hardware voor diepgaand leren.
Facebook Chief AI-wetenschapper Yann Le Cun
Ten eerste zijn hulpmiddelen erg belangrijk. Wat neurale netwerken (tijdelijk) in de jaren '90 doodde, was dat slechts een paar mensen - waaronder Le Cun - gereedschappen hadden om ze te trainen. Le Cun en zijn collega's besteedden veel tijd aan het bouwen van wat nu een deep-learning framework zou worden genoemd:een flexibel stuk software dat front-endtalen interpreteerde, waardoor de onderzoekers konden trainen en experimenteren met neurale netwerken. Het werk van de onderzoekers bracht het concept naar voren dat deep-learningsystemen kunnen worden samengesteld uit differentieerbare modules en vervolgens automatisch kunnen worden gedifferentieerd. Hoewel het destijds nieuw was, is dit nu de gangbare praktijk.
De juiste tools gaven het team van Le Cun zijn "superkracht" en waren ook een belangrijke factor bij het produceren van reproduceerbare resultaten, zei hij. "Goede resultaten zijn niet genoeg ... zelfs als je goede resultaten behaalt, zullen mensen nog steeds sceptisch zijn", zei hij. "Het reproduceerbaar maken van die resultaten is bijna net zo belangrijk als het daadwerkelijk produceren van de resultaten."
Naast de juiste tools zijn hardwareprestaties van cruciaal belang voor de onderzoeksgemeenschap, omdat hardwarebeperkingen hele onderzoeksrichtingen kunnen beïnvloeden, zei Le Cun.
"[Wat] de hardwaregemeenschap bouwt voor onderzoek of voor training, heeft daadwerkelijk invloed op de ideeën die mensen bedenken", zei hij. "Hele ideeën kunnen worden opgegeven, alleen omdat de hardware niet krachtig genoeg is, ook al waren het goede ideeën."
Het antwoord ligt misschien niet bij nieuwe en nieuwe vormen van computergebruik, zei hij, en merkte op dat veel exotische fabricagetechnologieën niet van de grond kwamen toen ze niet pasten in de bestaande computeromgeving.
Een van de frustraties van Le Cun met de huidige hardware-oplossingen voor AI-versnelling is dat de meeste zijn gebouwd voor matrixvermenigvuldiging, niet voor convolutie, wat de belangrijkste wiskundige bewerking is die tegenwoordig wordt gebruikt in de meeste neurale netwerken voor beeldverwerking en spraakherkenning. "[De heersende benadering] zal steeds meer verkeerd worden, in de zin dat we steeds grotere eisen aan macht zullen stellen", zei hij. "Als we een generiek stuk hardware bouwen waarbij 95% van de cycli wordt besteed aan het maken van convoluties, doen we het niet goed."
Killer-app
In de toekomst, zoals Le Cun het beschreef, zullen convolutionele neurale netwerken (CNN's) in alles worden gebruikt, van speelgoed tot stofzuigers tot medische apparatuur. Maar de geweldige app - de enige applicatie die de waarde van AI voor consumentenapparaten zal bewijzen - is de augmented-reality-headset.
Facebook werkt momenteel aan hardware voor AR-brillen. Het is een enorme hardware-uitdaging vanwege de hoeveelheid verwerking die nodig is bij lage latentie, alleen aangedreven door batterijen. "Als je beweegt, moeten de objecten in de wereld met de wereld meebewegen, niet met jou, en dat vereist nogal wat rekenwerk", zegt Le Cun.
Facebook stelt zich AR-brillen voor die met spraak worden bediend en communiceren via gebaren via realtime handtracking. Hoewel die functies tegenwoordig mogelijk zijn, gaan ze verder dan wat we kunnen doen op het gebied van stroomverbruik, prestaties en vormfactor. Le Cun heeft een paar 'trucjes' opgemerkt die kunnen helpen.
Wanneer u bijvoorbeeld hetzelfde neurale netwerk op elk frame van een video uitvoert - misschien om objecten te detecteren - maakt het niet uit of het resultaat voor één frame verkeerd is, omdat we de frames ervoor en erna kunnen bekijken en controleren op consistentie .
“Dus je kunt je voorstellen dat je extreem energiezuinige hardware gebruikt die niet perfect is; met andere woorden, je kunt af en toe bitflips [tolereren], "zei Le Cun. "Dit is eenvoudig te doen door de spanning van de voeding te verlagen."
Neural-net ontwikkelingen
De snelle evolutie van neurale netwerken is een grote uitdaging voor hardwareontwerp. Dynamische netwerken - netwerken met geheugen dat kan worden getraind om sequentiële of in de tijd variërende patronen te leren - winnen bijvoorbeeld aan populariteit, vooral voor natuurlijke taalverwerking (NLP). Ze gedragen zich echter anders dan veel aannames van de huidige hardware. De rekengrafiek kan niet worden geoptimaliseerd tijdens het compileren; dat moet tijdens runtime gebeuren. Het is ook nogal moeilijk om batching te implementeren, een populaire techniek waarbij meer dan één monster tegelijk wordt verwerkt om de prestaties te verbeteren.
"Alle meest voorkomende hardware die we tot onze beschikking hebben, gaat ervan uit dat je kunt batchen, want als je een batch hebt met meer dan één monster, dan kun je elke bewerking omzetten in een matrixvermenigvuldiging, inclusief windingen en volledig verbonden netten," zei Le Cun. “[Het] is een uitdaging voor de hardwaregemeenschap om architecturen te creëren die niet aan prestaties inboeten door batchgrootte =1 te gebruiken. Dat geldt natuurlijk voor training; de optimale batchgrootte voor training is 1. We gebruiken meer omdat onze hardware ons daartoe dwingt.”
Zelf begeleid leren
Een andere uitdaging voor hardware is dat de leerparadigma's die we momenteel gebruiken zullen veranderen, en dit zal op korte termijn gebeuren, volgens Le Cun.
"Er is veel werk [wordt gedaan] om te proberen machines meer te laten leren zoals mensen en dieren, en mensen en dieren leren niet door leren onder toezicht of zelfs door versterkend leren," zei hij. "Ze leren door iets dat ik zelf-gesuperviseerd leren noem, meestal door observatie."
Le Cun beschreef een algemene benadering van zelf-gecontroleerd leren waarbij een deel van het monster wordt gemaskeerd en het systeem wordt getraind om de inhoud van het gemaskeerde stuk te voorspellen op basis van het deel van het monster dat beschikbaar is. Dit wordt vaak gebruikt bij afbeeldingen, waarbij een deel van de afbeelding wordt verwijderd, en tekst, waarbij een of meer woorden worden weggelaten. Werk tot nu toe heeft aangetoond dat het bijzonder effectief is voor NLP; het type netwerken dat wordt gebruikt, transformatoren, heeft een trainingsfase die gebruik maakt van zelf-gesuperviseerd leren.
Het probleem vanuit een hardwareperspectief is dat transformatornetwerken voor NLP enorm kunnen zijn:de grootste hebben tegenwoordig 5 miljard parameters en groeien snel, zei Le Cun. De netwerken zijn zo groot dat ze niet in GPU-geheugens passen en in stukken moeten worden gebroken.
"Zelf-gesuperviseerd leren is de toekomst - daar bestaat geen twijfel over", zei hij. “Maar dit is een uitdaging voor de hardwaregemeenschap omdat de geheugenvereisten absoluut gigantisch zijn. Doordat deze systemen worden getraind met ongelabelde data, die in overvloed aanwezig zijn, kunnen we zeer grote netwerken qua data trainen. De hardwarevereisten voor het uiteindelijke systeem zullen veel, veel groter zijn dan ze nu zijn. De hardwarerace zal niet snel stoppen.”
Hardwaretrends
Nieuwe hardware-ideeën die gebruikmaken van technieken zoals analoog computergebruik, spintronica en optische systemen staan op de radar van Le Cun. Hij noemde communicatieproblemen - problemen bij het omzetten van signalen tussen nieuwe hardware en de rest van de benodigde computerinfrastructuur - als een groot nadeel. Analoge implementaties, zei hij, zijn afhankelijk van het uiterst schaars maken van activeringen om voordelen te behalen in energieverbruik, en hij vroeg zich af of dit altijd mogelijk zal zijn.
Le Cun beschreef zichzelf als 'sceptisch' ten aanzien van futuristische nieuwe benaderingen, zoals het versterken van neurale netwerken en neuromorfisch computergebruik in het algemeen. Het is nodig om te bewijzen dat de algoritmen werken voordat er chips voor worden gebouwd, zei hij.
"Het ontwerp van dergelijke systemen door hardware sturen, in de hoop dat iemand met een algoritme komt dat deze hardware zal gebruiken, is waarschijnlijk geen goed idee," zei Le Cun.
Een tijdlijn voor verwerking van neurale netwerken
Eind jaren 80 :Weerstandarrays worden gebruikt om matrixvermenigvuldiging uit te voeren. Tegen het einde van de jaren tachtig hebben de arrays versterkers en converters om zich heen gekregen, maar zijn ze nog steeds vrij primitief volgens de huidige normen. De beperking is hoe snel gegevens in de chip kunnen worden ingevoerd.
1991 :De eerste chip die is ontworpen voor convolutionele neurale netwerken (CNN's) wordt gebouwd. De chip is in staat tot 320 giga-bewerkingen per seconde (GOPS) op binaire gegevens, met digitale schuifregisters die de hoeveelheid extern verkeer die nodig is om een convolutie uit te voeren, minimaliseren, waardoor de werking wordt versneld. De chip ziet geen gebruik buiten de academische wereld.
1992 :ANNA, een analoge neurale netwerk ALU-chip, debuteert. ANNA is ontworpen voor CNN's met 6-bits gewichten en 3-bits activeringen en bevat 180.000 transistors in 0,9-m CMOS. Het wordt gebruikt voor optische karakterherkenning van handgeschreven tekst.
1996 :DIANA, een digitale versie van ANNA, wordt uitgebracht. Maar toen neurale netwerken halverwege de jaren negentig uit de gratie raakten, wordt DIANA uiteindelijk hergebruikt voor signaalverwerking in gsm-masten.
2009–2010 :Onderzoekers demonstreren een hardware-neuraal-netwerkversneller op een FPGA (de Xilinx Virtex 6). Het voert een demo uit voor semantische segmentatie voor geautomatiseerd rijden en het is in staat tot 150 GOPS bij ongeveer 0,5 W. Het team van Purdue University probeert een ASIC te maken op basis van dit werk, maar het project blijkt niet succesvol. (Bron:Yann Le Cun/Facebook)
Ingebed