Machine learning-benchmark breidt ondersteuning voor edge, datacenter-workloads uit

Benchmarkorganisatie ML Commons heeft een nieuwe ronde van MLPerf Inference-scores uitgebracht. Deze laatste ronde is onderverdeeld in apparaatklassen om de vergelijking te vergemakkelijken. De resultaten bevatten ook een reeks nieuwe AI-modellen, die bedoeld zijn om een reeks verschillende workloads te vertegenwoordigen die commercieel worden ingezet maar nog steeds als state-of-the-art worden beschouwd.

Nvidia-versnelde systemen waren goed voor ongeveer 85% van de totale inzendingen en wonnen alle categorieën waaraan ze deelnamen. Er waren echter geen Nvidia-inzendingen in de klassen Mobile of Notebook (Nvidia is niet aanwezig in deze markten met AI-versnellingsproducten). Er waren ook verschillende interessante inzendingen van startups, en over het algemeen een grotere neiging om getallen in meerdere kolommen te hebben, wat vergelijkingen gemakkelijker maakte.

Wijzigingen t.o.v. laatste ronde

De eerste grote verandering in de resultaten deze ronde is dat systemen zijn opgedeeld in klassen:datacenter, edge, mobiel en notebook. Mobiele telefoons en notebooks hebben zeer specifieke vormfactoren en prestatieprofielen, waardoor ze gemakkelijk te onderscheiden zijn van de bredere edge-lijst.

"Als je het over een notebook hebt, draait deze waarschijnlijk op Windows, als je het over een smartphone hebt, gebruik je waarschijnlijk iOS of Android", vertelde David Kanter, uitvoerend directeur van ML Commons aan EE Times . "Het scheiden van deze resultaten van de grotere pool van gevolgtrekkingsscores is erg handig om dingen duidelijker te maken."

De benchmarks voor deze tweede ronde van inferentiescores zijn ook vernieuwd om AI-modellen op te nemen die moderne use-cases vertegenwoordigen. Terwijl de vorige ronde gericht was op visie- en beeldverwerkingsmodellen, bevatten het datacenter en de edge-klassen dit keer het aanbevelingsmodel DLRM, het medische beeldvormingsmodel 3D-UNet dat wordt gebruikt om tumoren te zoeken in MRI-scans, het spraak-naar-tekstmodel RNN- T en natuurlijke taalverwerking (NLP) model BERT.

"[Modelselectie] wordt aangedreven door input van de klant, maar we willen niet in de val trappen om de studenten hun eigen test te laten maken", zei Kanter, die uitlegde dat het doel was om geavanceerde modellen te identificeren die in productie zijn, niet alleen in de onderzoeksfase. "DLRM en 3D-UNet, dat waren zeer geïnformeerde [keuzes] gedreven door onze adviesraad, mensen uit de medische wereld, mensen die op grote schaal aanbevelingen doen... Dat soort geïnformeerde werklastconstructie is enorm waardevol."

De klassen mobiel en notebook gebruiken MobileNetEdge voor beeldclassificatie, SSD-MobileNetv2 voor objectdetectie, Deeplabv3 voor beeldsegmentatie en Mobile BERT voor NLP.

Over de hele linie zijn de nauwkeurigheidsdoelen ook verhoogd om real-world implementaties weer te geven.

De onderstaande analyse verwijst alleen naar de "gesloten" divisie voor een eerlijke vergelijking.

Datacenterresultaten

Zoals verwacht, gebruikte de meerderheid van de inzendingen in de datacenterklasse Nvidia GPU-versnellers. De rest gebruikte Intel-CPU's voor de AI-verwerking, met een paar uitzonderingen (zie hieronder). Deze keer geen inzendingen van Google voor zijn TPU en geen inzendingen van iemand in de vocale gemeenschap van startups die zich in deze ruimte vestigen (Graphcore, Cerebras, Groq, enz.).

"De prestatievoorsprong van [Nvidia] ten opzichte van de CPU's is toegenomen van ongeveer 6x tot 30x op een standaard computervisiemodel genaamd ResNet, en op geavanceerde aanbevelingssysteemmodellen... Nvidia A100 is 237 keer sneller dan de Cooper Lake CPU van [Intel]", zei Paresh Kharya , senior directeur productbeheer en marketing bij Nvidia. "Een enkele DGX-A100 biedt dezelfde prestaties op aanbevelingssystemen als 1000 CPU-servers, en een verbazingwekkende waarde voor klanten."

Mipsology was de enige commercieel beschikbare non-CPU non-GPU deelnemer in deze divisie. Het bedrijf heeft een acceleratortechnologie genaamd Zebra die draait op Xilinx FPGA's (in dit geval een Xilinx Alveo U250). Hun technologie kan 4096 ResNet-query's per seconde verwerken in servermodus (vergeleken met ongeveer 5563 voor een Nvidia T4) of 5011 samples per seconde in offline modus (vergeleken met ongeveer 6112 voor de Nvidia T4).

Het Taiwanese bedrijf Neuchips heeft een score ingediend in de categorie Onderzoek, Ontwikkeling of Intern, wat betekent dat het gebruikte apparaat niet in de handel verkrijgbaar is en hoogstwaarschijnlijk pas over zes maanden zal zijn. RecAccel is specifiek ontworpen om DLRM, het aanbevelingsmodel dat in deze benchmark wordt gebruikt, te versnellen. Het maakt gebruik van een enorm parallel ontwerp dat draait op een Intel Stratix FPGA voor AI-inferentie. De resultaten in de DRLM-categorie waren vergelijkbaar of slechter dan Intel Cooper Lake-CPU's en geen partij voor Nvidia.

Randresultaten

De edge-categorie werd gedomineerd door scores die werden versneld door Nvidia's A100, T4, AGX Xavier en Xavier NX.

Centaur Technology heeft resultaten ingevoerd van zijn in de handel verkrijgbare referentieontwerpsysteem dat gebruik maakt van de serverprocessor van Centaur op basis van zijn interne x86-microarchitectuur, plus een afzonderlijke interne AI-versneller als co-processor. Dit referentieontwerp is een systeem van serverklasse voor on-premises of private datacentertoepassingen en is geoptimaliseerd voor kosten en vormfactor (in plaats van stroomverbruik of piekprestaties), volgens Centaur.

Op ResNet-beeldclassificatie (latentie van één stream) was het systeem van Centaur sneller dan de eigen inzendingen van Nvidia voor serversystemen die zijn uitgerust met de Tesla T4. De T4 versloeg echter het ontwerp van Centaur op ResNet offline samples die per seconde werden verwerkt. Centaur deed het echter niet zo goed op het gebied van objectdetectie en kwam ergens tussen Nvidia's twee embedded edge-modules, de Xavier NX en de AGX Xavier.

Het Britse ingenieursbureau dividiti, dat gespecialiseerd is in het objectief evalueren van ML-hardware- en -softwaresystemen, heeft een reeks scores op systemen variërend van Fireflys en Raspberry Pis ingediend bij de Nvidia AGX Xavier. Schijnbaar identieke scores voor de Raspberry Pi-vermeldingen gebruiken in feite verschillende besturingssystemen (32-bit Debian versus 64-bit Ubuntu - Ubuntu was ongeveer 20% sneller). De resultaten van het bedrijf verschilden van de eigen resultaten van Nvidia voor de AGX Xavier, aangezien Nvidia zowel de GPU van de AGX Xavier als twee on-chip deep learning-versnellers voor zijn ResNet Offline- en Multistream-scores gebruikte, waar dividiti alleen de GPU gebruikte.

Een woordvoerder van dividiti vertelde ook aan EE Times dat hoewel het bedrijf erin was geslaagd om de scores van Nvidia voor de vorige inferentieronde "min of meer" te reproduceren, de laatste resultaten een prestatieregressie in het testharnas introduceerden die slechts enkele minuten voor de indieningsdeadline werd opgemerkt (het oplossen van deze fout verbeterde later enkele latenties door 10-20%). Dit illustreert het belang van de hardware/software-combinatie op de resultaten.

De edge-categorie werd gedomineerd door resultaten die werden versneld door Nvidia GPU's, waaronder de Jetson Xavier NX (Afbeelding:Nvidia)

Nieuwe inzendingen in deze categorie zijn onder meer IVA Technologies en Mobilint, beide in de categorie Onderzoek, Ontwikkeling of Intern.

IVA Technologies, een Russische ontwerper en fabrikant van IT-apparatuur, heeft gewerkt aan een AI-versnellerchip die convolutionele, 3D-convolutionele en LSTM-modellen ondersteunt. Het bedrijf diende een score in met het label "FPGA", die mogelijk een prototype is van de versneller ASIC die op een FPGA is geïmplementeerd. ResNet single stream latentie was 12,23 ms, ongeveer 4x langzamer dan de Xavier NX, en het verwerkte 89 offline samples per seconde, minder dan een tiende van de Xavier NX. De Edge-categorie is echter breed en er is niet veel bekend over het ontwerp - het kan bedoeld zijn voor kleinere apparaten dan de Xavier NX.

Mobilint, een Koreaanse AI-accelerator ASIC-startup, diende een score in voor zijn Mobilint Edge-ontwerp, dat EE Times verdachten werd geïmplementeerd als een prototype op een Xilinx Alveo U250 FPGA-kaart. Op ResNet was de latentie veel langer dan het ontwerp van IVA Technologies met 37,46 ms, maar het verwerkte meer offline samples per seconde (107). Het bedrijf heeft ook scores ingediend voor objectdetectie.

Hoewel noch IVA Technologies noch Mobilint baanbrekende scores produceerden, is het zeker waardevol om prototypes te benchmarken, aangezien het bewijst dat hun bijbehorende softwarestacks klaar zijn.

Mobiele resultaten

In de categorie nieuwe mobiele SoC waren er drie inzendingen die redelijk goed overeenkwamen, zonder een duidelijke winnaar.

MediaTek heeft scores ingediend voor zijn Dimensity 820 (in de Xiaomi Redmi 10X 5G-smartphone). Dit apparaat maakt gebruik van MediaTek's eigen AI-verwerkingseenheid (APU) 3.0, een FP16- en INT16-compatibele versneller die is geoptimaliseerd voor camera-/beeldvormingsfuncties. De SoC heeft ook een 5-core GPU.

De Qualcomm Snapdragon 865+ maakt gebruik van de Hexagon 698-processor van het bedrijf die is ontworpen voor AI-versnelling die klokt op 15 TOPS, naast de Adreno 650 GPU. De benchmarks zijn uitgevoerd op een Asus ROG Phone 3.

Samsung's Exynos 990 werd gebenchmarkt als onderdeel van de Galaxy Note 20 Ultra. Dit apparaat bevat een dual-core NPU (neural processing unit) en een Arm Mali-G77 GPU naast verschillende Arm CPU-cores.

De Exynos 990 van Samsung deed het het beste op het gebied van beeldclassificatie en NLP; de MediaTek Dimensity 820 was erg dicht bij beeldclassificatie, maar Samsung had een duidelijkere voorsprong op NLP. MediaTek had een duidelijke voorsprong in objectdetectie, met de Qualcomm Snapdragon 865+ op de tweede plaats. MediaTek won ook de benchmark voor beeldsegmentatie, met een kleine voorsprong op Qualcomm.

Notebookresultaten

Er was maar één vermelding in de categorie Notebooks:een Intel-referentieontwerp dat de aanstaande Intel Xe-LP GPU als accelerator gebruikt. De Xe-LP is de energiezuinige versie van Xe-HP en Xe-HPC die bedoeld zijn voor datacenter AI-versnelling en HPC; geen van de grotere apparaten werd gebenchmarkt.

Omdat er maar één inzending was in deze klasse, is het lastig om de resultaten van de Xe-LP te interpreteren. De notebookcategorie gebruikte echter dezelfde AI-modellen als de mobiele categorie, dus enige vergelijking is onvermijdelijk. Het grootste voordeel van Xe-LP ten opzichte van de mobiele SoC's was de beeldsegmentatie (DeeplabV3), waar het de mobiele winnaar een factor 2,5 overtrof op het gebied van doorvoer (frames per seconde). De zwakste prestatie was op objectdetectie (SSD - MobileNetv2), waar het voordeel 1,15x was ten opzichte van de mobiele winnaar in termen van doorvoer (frames per seconde).

Toekomstige benchmarks

In de toekomst hoopt Kanter dat toekomstige benchmarks meer niet-Nvidia- en niet-Intel-CPU-inzendingen zullen bevatten, en zegt dat de organisatie alles in het werk heeft gesteld om startups en kleinere bedrijven aan te moedigen om resultaten in te dienen.

"We hebben een open afdeling, waar je elk netwerk kunt indienen dat je wilt," zei hij. “Een van de leuke dingen is dat als een klant zegt dat ik X wil, en je doet al het mogelijke daarvoor, je X kunt gebruiken, zolang je de code maar kunt invoeren, zodat we kunnen zien wat je doet. ”

Bedrijven kunnen resultaten indienen voor slechts één AI-model om de technische inspanning laag te houden, en kunnen zelfs hun eigen modellen in de open categorie indienen.

Kanter vermeldde ook dat het de bedoeling van de organisatie is om een machtsmetingsdimensie te introduceren in de volgende ronde van scores. Er wordt al gewerkt.

"Een van de dingen waar we mensen graag bij betrekken, is het helpen bouwen van de infrastructuur voor vermogensmeting - help ons de tools te ontwikkelen om die metingen te doen", zei Kanter.

De volledige lijst met MLPerf Inference-resultaten in detail is hier beschikbaar.

>> Dit artikel is oorspronkelijk gepubliceerd op onze zustersite, EE Times.

Renesas en Altran ontwikkelen draagbare chipset met 3db Access UWB Ontwikkelplatform voor beeldradar biedt 2K-resolutie

Ingebed

Sensor

Cloud computing

Internet of Things-technologie