AlphaZero:Google's AI verovert Chess and Go in 24 uur

Bordspellen (zoals schaken) zijn een veel bestudeerd veld in de geschiedenis van kunstmatige intelligentie. Pioniers als Turing, Babbage, von Neumann en Shannon ontwikkelden theorieën, algoritmen en hardware om schaakspel te analyseren en te spelen. En de afgelopen jaren hebben we soortgelijke programma's gezien die beter presteren dan mensen in veel complexere spellen zoals Go en Shogi (Japans schaken).

Google's Deepmind heeft een fenomenale staat van dienst als het gaat om het verslaan van mensen bij bordspellen. In 2015 werd hun project AlphaGo het eerste Go-computerprogramma dat een mens (een professionele Go-speler) versloeg. En nu hebben ze een AlphaGo-programma ontwikkeld dat het schaakspel zelf kan leren en in bijna vier uur een mens of een ander computerprogramma (inclusief Stockfish en Deep Blue) kan verslaan.

Conventionele AI-programma’s (van bordspellen) zijn in hoge mate geoptimaliseerd voor hun domein en kunnen zonder menselijke tussenkomst niet worden gegeneraliseerd naar andere problemen. Het AlphaZero-programma kan daarentegen bovenmenselijke prestaties bereiken in verschillende uitdagende domeinen. Zonder voorafgaande kennis behalve de spelregels en gebaseerd op willekeurig spel, bereikte AlphaZero binnen 24 uur een bovenmenselijk spelniveau in de spellen Chess, Shogi en Go, en versloeg in beide gevallen het beste programma ter wereld. Hoe hebben ze dit gedaan en wat zijn de exacte resultaten? Laten we het uitzoeken.

Methodologie

In oktober 2017 kondigde Deepmind aan dat hun AlphaGo Zero-algoritme bovenmenselijke prestaties heeft bereikt met behulp van een diep convolutie-neuraal netwerk en uitsluitend is getraind door versterkend leren. Ingenieurs hebben dezelfde aanpak gebruikt om een generiek algoritme te bouwen, genaamd AlphaZero, dat de domeinspecifieke augmentaties en handgemaakte kennis die wordt gebruikt in conventionele game-algoritmen vervangt door diepe neurale netwerken en een tabula rasa leeralgoritme voor versterking .

AlphaZero gebruikt MCTS voor algemeen gebruik (Monte-Carlo Tree Search)-algoritme in plaats van alfa-bèta-zoeken. Het leert waardeschattingen en verplaatsingskansen door tegen zichzelf te spelen, en gebruikt vervolgens de geleerde informatie om zijn zoektocht te begeleiden.

Hoe het verschilt van het AlphaGo Zero-algoritme

Het AlphaGo Zero-algoritme schat en optimaliseert de winstkans, waarbij rekening wordt gehouden met binaire winst- of verliesresultaten. AlphaZero daarentegen schat en optimaliseert de verwachte uitkomst, rekening houdend met gelijkspel of andere mogelijke uitkomsten.

De Go-spelregels zijn onveranderlijk voor reflectie en rotatie. Dit feit wordt op 2 manieren zeer goed benut in zowel AlphaGo als de geavanceerde versie AlphaGo Zero.

Vergroot trainingsgegevens door 8 symmetrieën voor elke positie te creëren.
Transformeer de positie via een willekeurig geselecteerde reflectie of rotatie voordat deze wordt berekend door een neuraal netwerk, in het MCTS-algoritme, zodat de berekening wordt gemiddeld over verschillende vooroordelen.

In het geval van schaken en shogi zijn de regels asymmetrisch en kun je in het algemeen niet van symmetrieën uitgaan. In AlphaZero worden trainingsgegevens niet aangevuld en wordt de bestuurspositie niet getransformeerd tijdens MCTS.

AlphaGo Zero gebruikt de beste speler uit eerdere iteraties om een zelfspeelspel te genereren. Na voltooiing van elke iteratie worden de prestaties van de nieuwe speler geëvalueerd ten opzichte van de beste speler. Als er met een marge van 55 procent wordt gewonnen, wordt de beste speler vervangen en worden zelfspelspellen verder gegenereerd door de nieuwe speler. AlphaZero onderhoudt echter één enkel neuraal netwerk (continu bijgewerkt) in plaats van te pauzeren totdat een iteratie is voltooid.

AlphaZero-optimalisatie en training

AlphaZero gebruikt hyperparameters voor alle games zonder enige gamespecifieke optimalisatie. Om verkenning te garanderen, is een ruisfactor geïntegreerd, die proportioneel wordt geschaald naar het aantal legitieme zetten voor dat type spel.

Net als bij AlphaGo Zero wordt de bordstatus gecodeerd door ruimtelijke vlakken en worden acties gecodeerd door ruimtelijke vlakken of een platte vector, gebaseerd op de basisregels van elk spel.

Ontwikkelaars hebben AlphaZero toegepast op schaken, shogi en Go. Voor alle drie de games werden dezelfde netwerkarchitectuur, hyperparameters en instellingen gebruikt. Voor elk spel wordt een individueel exemplaar van het algoritme getraind. Beginnend met willekeurig geïnitialiseerde parameters, werd er training uitgevoerd voor 700.000 stappen, waarbij gebruik werd gemaakt van 5.000 Tensor Processing Units van de eerste generatie om zelfspelende games te bouwen en 64 Tensor Processing Units van de tweede generatie om de neurale netwerken te trainen.

Referentie: arxiv.org

Resultaten

Zoals je in de figuur kunt zien, presteerde AlphaZero beter dan Stockfish na 300.000 stappen (na 4 uur) bij het schaken; het presteerde beter dan Elmo in 110.000 stappen (binnen 2 uur); en het presteerde beter dan AlphaGo Lee in 165.000 stappen (na 8 uur).

De volledig getrainde exemplaren (getraind gedurende 3 dagen) van AlphaZero werden getest tegen AlphaGo Zero, Elmo en Stockfish, waarbij 100 wedstrijden werden gespeeld met een tijdsnelheid van 1 minuut per zet. De resultaten waren behoorlijk indrukwekkend (vermeld in onderstaande tabel).

AlphaGo Zero en AlphaZero gebruikten één enkele machine met 4 Tensor Processing Units, Elmo en Stockfish presteerden hun best met 64 threads en 1 GB hashgrootte. AlphaZero versloeg ze allemaal en verloor 8 wedstrijden van Elmo en geen van Stockfish.

Google-ontwikkelaars onderzochten ook de prestaties van MCTS-zoekopdrachten in AlphaZero. Het zoekt naar 40.000 posities per seconde in shogi en 80.000 in schaken, vergeleken met 35.000.000 voor Elmo en 70.000.000 voor Stockfish. AlphaZero gebruikt zijn diepe neurale netwerk om selectiever te focussen op de meest veelbelovende opties, of je kunt zeggen een meer mensachtige aanpak.

Lees:15 beste schaakengines op basis van hun beoordelingen

Hoewel AlphaZero nog in de kinderschoenen staat, vormt het een belangrijke stap in de richting van zijn doel. Als vergelijkbare benaderingen kunnen worden toegepast op andere gestructureerde problemen, zoals het vouwen van eiwitten, het ontdekken van nieuwe materialen of het verminderen van het energieverbruik, hebben de resultaten het potentieel om onze toekomst op een positieve manier te beïnvloeden.

Recordbrekende 53-Qubit Quantum Simulator onthuld Japan lanceert een quantumcomputerprototype dat 100x sneller is dan de huidige supercomputers

Industriële technologie

Productieproces

3d printen

Automatisering Besturingssysteem

Industriële technologie