AI kan nu door onbekende omgevingen navigeren zonder een kaart

Onderzoekers van Facebook AI ontwikkelen een nieuw versterkend leeralgoritme genaamd DD-PPO.
Het kan door complexe omgevingen navigeren met alleen kompasgegevens, RGB-D-camera en GPS.

Het ontwikkelen van intelligente machines die slim samenwerken met de fysieke wereld is een langetermijndoel van de AI-gemeenschap. De grootste uitdaging is om deze machines te leren zodat ze efficiënt door complexe, onbekende omgevingen kunnen navigeren zonder een kaart te gebruiken.

Gewoonlijk raken kaarten uit de echte wereld binnen enkele maanden verouderd, omdat gebouwen en constructies veranderen en objecten worden verplaatst. Daarom is het heel noodzakelijk om AI te bouwen voor de fysieke wereld die zonder kaart kan navigeren.

Met deze dingen in gedachten hebben onderzoekers van Facebook AI een nieuw wapeningsleeralgoritme (RL) ontwikkeld dat de navigatietaak van het puntdoel effectief oplost met alleen kompasgegevens, RGB-D-camera en GPS. Dit grootschalige algoritme heet DD-PPO (decentralized distributed proximal policy optimization).

Nieuwe RL gedistribueerde architectuur schaalt goed

Tegenwoordig kunnen op machine learning gebaseerde systemen beter presteren dan menselijke experts in verschillende complexe games. Maar aangezien deze systemen afhankelijk zijn van een enorme hoeveelheid trainingsvoorbeelden, is het vrijwel onmogelijk om ze te bouwen zonder grootschalige, gedistribueerde parallellisatie.

De huidige gedistribueerde leerarchitectuur voor versterking - omvat duizenden werknemers (CPU's) en een server met één parameter - kan niet goed worden geschaald. Daarom hebben onderzoekers een synchrone, gedistribueerde leertechniek voor versterking voorgesteld.

DD-PPO loopt over meerdere machines en heeft geen parameterserver. Elke werknemer (CPU) wisselt af tussen het opdoen van ervaring in een GPU-versnelde, resource-intensieve gesimuleerde omgeving en het optimaliseren van het model. In een expliciete communicatiestatus synchroniseren alle werknemers hun updates met het model. Met andere woorden, de distributie is synchroon.

Alle werkers simuleren een agent die punt-doelnavigatie uitvoert, optimaliseren vervolgens het model en synchroniseren hun updates | Zo worden gegevens gedeeld tijdens de training met DD-PPO

Met behulp van deze aanpak vertoonde DD-PPO een bijna lineaire schaal:het was in staat om een snelheid van 107 keer te bereiken op 128 GPU's via een seriële implementatie.

Referentie:arXiv:1911.00357 | Facebook AI

Bijna perfect punt-doelnavigatie

Bij punt-doelnavigatie wordt een agent op een willekeurige beginpositie/oriëntatie in een onbekende omgeving geplaatst en krijgt hij de taak om naar doelcoördinaten te navigeren zonder een kaart te gebruiken. Het kan alleen een kompas, GPS en een RGB- of RGB-D-camera gebruiken.

Onderzoekers maakten gebruik van de schaalfunctie van DD-PPO om de agent te trainen voor 2,5 miljard stappen, wat overeenkomt met 80 jaar menselijke ervaring. In plaats van maanden werd de training in minder dan drie dagen voltooid met 64 GPU's.

De resultaten toonden aan dat 90% van de topprestaties werd behaald in de eerste 100 miljoen stappen met minder computerbronnen (8 GPU's). Met miljarden stappen aan ervaring behaalt de agent een slagingspercentage van 99,9%. Daarentegen behaalden eerdere systemen een slagingspercentage van 92%.

De agent keert terug nadat hij het verkeerde pad heeft gekozen om zijn doelpositie te bereiken | Met dank aan onderzoekers

Toepassingen

Deze AI-agenten kunnen mensen in de fysieke wereld helpen. Ze kunnen bijvoorbeeld relevante informatie tonen aan gebruikers die een augmented reality-bril dragen, robots kunnen items van een bureau boven halen en AI-aangedreven systemen kunnen mensen met een visuele beperking helpen.

De modellen die in dit onderzoek zijn gebouwd, kunnen werken in de gebruikelijke omgevingen, zoals in laboratoria en kantoorgebouwen, waar geen aanvullende gegevenspunten (kaarten en GPS-gegevens) beschikbaar zijn.

Lezen:Facebook ontwikkelt AI die in staat is om ieders stem te kopiëren met ongekende nauwkeurigheid

Hoewel het model beter presteert dan de vooraf getrainde convolutionele neurale netwerken van ImageNet en kan dienen als een universele hulpbron, moet er nog veel gebeuren om systemen te ontwikkelen die leren navigeren door complexe omgevingen. Onderzoekers onderzoeken momenteel nieuwe benaderingen om RGB-only point-goalnavigatie te implementeren.

Nieuw algoritme combineert naadloos twee audiosignalen 's Werelds snelst draaiende object draait met 300 miljard RPM

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie