Hondentrainingsmethoden leren robots nieuwe trucs te leren

Met een trainingstechniek die vaak wordt gebruikt om honden te leren zitten en blijven, lieten computerwetenschappers een robot zien hoe hij zichzelf verschillende nieuwe trucs kon leren, waaronder het stapelen van blokken. Met de methode kon de robot (genaamd Spot) in dagen leren wat normaal gesproken een maand duurt. Door positieve bekrachtiging te gebruiken - een benadering die bekend is bij iedereen die snoepjes heeft gebruikt om het gedrag van een hond te veranderen - verbeterde het team de vaardigheden van de robot drastisch en deed het het snel genoeg om het trainen van robots voor echt werk een meer haalbare onderneming te maken.

In tegenstelling tot mensen en dieren die worden geboren met een zeer intuïtief brein, zijn computers onbeschreven en moeten ze alles vanaf het begin leren. Maar echt leren wordt vaak bereikt met vallen en opstaan en robotici zijn nog steeds aan het uitzoeken hoe robots efficiënt kunnen leren van hun fouten. Het team heeft dat bereikt door een beloningssysteem te bedenken dat voor een robot werkt zoals traktaties voor een hond. Waar een hond een koekje kreeg voor een goed uitgevoerde klus, verdiende de robot numerieke punten.

Om blokken te stapelen, moet Spot de robot leren focussen op constructieve acties. Terwijl de robot de blokken verkende, leerde hij al snel dat correct stapelgedrag hoge punten opleverde, maar verkeerde niets. Spot verdiende het meeste door het laatste blok bovenop een stapel van vier blokken te plaatsen.

De trainingstactiek werkte niet alleen, maar het kostte ook slechts enkele dagen om de robot te leren wat vroeger weken duurde. Het team kon de oefentijd verkorten door eerst een gesimuleerde robot te trainen, die veel lijkt op een videogame, en vervolgens tests uit te voeren met Spot. De robot leert snel het juiste gedrag om de beste beloning te krijgen. Wat de robot vroeger een maand lang moest oefenen om 100 procent nauwkeurigheid te bereiken, was in feite in twee dagen gedaan.

Positieve versterking werkte niet alleen om de robot te helpen zichzelf te leren blokken te stapelen, maar ook met het puntensysteem leerde de robot snel verschillende andere taken - zelfs hoe hij een gesimuleerd navigatiespel moest spelen. Het vermogen om te leren van fouten in allerlei situaties is van cruciaal belang voor het ontwerpen van een robot die zich kan aanpassen aan nieuwe omgevingen.

Het team stelt zich voor dat deze bevindingen kunnen helpen bij het trainen van huishoudelijke robots om de was te doen en de afwas te doen - taken die senioren kunnen helpen zelfstandig te leven. Het kan ook helpen bij het ontwerpen van verbeterde zelfrijdende auto's of het uitvoeren van productassemblage.

Voor meer informatie kunt u contact opnemen met Jill Rosen via Dit e-mailadres wordt beveiligd tegen spambots. U heeft Javascript nodig om het te kunnen zien.; 443-547-8805.

Volledig geautomatiseerde productie van additieven met hoge doorvoer Hoogwaardige lasers van de volgende generatie

Automatisering Besturingssysteem

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie