< Terug naar vorige pagina

Project

Structuur in de omgeving benutten om herbruikbare vaardigheden voor autonome agenten te leren (FWOTM821)

Een Reinforcement Learning-agent leert zich het best in zijn omgeving te gedragen door herhaaldelijk acties uit te voeren en de resultaten te observeren. De taak die door de agent moet worden opgelost, wordt uitgedrukt met behulp van een beloningssignaal en de agent leert welke acties moeten worden uitgevoerd in welke omstandigheden om deze te maximaliseren. Reinforcement Learning-agents kunnen leren, zelfs als er een vertraging is tussen een actie en het effect ervan op het beloningssignaal, maar het leren gaat veel langzamer naarmate deze vertraging toeneemt. Deze vertraging komt meestal van het feit dat de taak die moet worden opgelost erg ingewikkeld is en alleen succes heeft of faalt (en dus een positieve / negatieve beloning oplevert). Het sterkste deel van taken bestaat uit het delen van een taak in eenvoudiger subtaken. gemakkelijker om te leren. Deze verdeel en heers benadering vertaalt zich naar een meer informatief beloningssignaal, met minder vertraging, aangezien de agent een beloning ontvangt telkens wanneer het een subtaak voltooit. Dit versnelt het leren grotendeels, net als het identificeren van tussendoelen stelt mensen in staat om een ​​complexe taak beter te begrijpen. We stellen hiërarchisch RL in op complexe maar gestructureerde problemen om het leren te versnellen en de agent in staat te stellen zich snel aan te passen aan veranderingen in zijn omgeving door vaardigheden te hergebruiken die het al beheerst. We zullen originele algoritmen ontwerpen waarmee een agent structuur- en tussenliggende doelen in een probleem kan ontdekken, vergelijkbare subtaken kan identificeren om zijn kennis te generaliseren en te leren hoe nieuwe taken het best kunnen worden uitgevoerd.
Datum:1 okt 2016 →  31 dec 2020
Trefwoorden:computer science
Disciplines:Numerieke analyse