< Terug naar vorige pagina

Project

Multi-criteria bekrachtigingsleren (FWOAL726)

Het doel van dit project is het ontwikkelen van multi-criteria (of multi-objectieve) reinforcement learning (MORL) algoritmen. Reinforcement Learning is een aanpak die leert tijdens het doen. Het verbetert zijn prestaties geleidelijk door goede acties te belonen en slechte acties te bestraffen. Hierbij wordt niet alleen rekening gehouden met het onmiddellijke effect van een actie, maar ook met de lange termijn. Het is met name geschikt als een nauwkeurig model van het te besturen systeem niet beschikbaar is. Hoewel de standaard reinforcement learning (RL) -algoritmen een optimaal beleid leren dat een scalaire langetermijnbeloning maximaliseert, moet een algoritme voor versterking van meerdere doelen worden gezocht naar een reeks goede beleidsmaatregelen. Ons doel is om een ​​aanpak te ontwikkelen om de reeks oplossingen van Pareto efficiënt te verkennen, dit zijn de oplossingen die voor geen van beide criteria kunnen worden verbeterd zonder dat wordt toegegeven aan ten minste een van de andere criteria. Een groot voordeel van onze aanpak is dat de gebruiker de criteria niet a priori moet combineren in een enkel belonsignaal, iets dat op een gepaste manier moeilijk te doen is als het systeem onbekend is. De focus ligt op het ontwerpen en analyseren van MORL-algoritmen die op efficiënte wijze de Pareto-set van optimaal beleid onderzoeken / exploiteren. We onderzoeken de incorpatie van veelbelovende ideeën van multi-objectieve optimalisatie om de exploratie te sturen, dit is de manier waarop het zoeken naar beter beleid wordt georganiseerd en concepten uit dynamisch programmeren met meerdere criteria als een startpunt om de bootstrapping te organiseren die nodig is om multi- stadiumproblemen. We zijn geïnteresseerd in de aspecten van het algoritmisch ontwerp en de theoretische en experimentele analyse. We zullen onze aanpak van bench mark-problemen en praktische multi-criteriatoepassingen voor het domein van controle valideren.
Datum:1 jan 2014  →  31 dec 2017
Trefwoorden:Databases, Evolution of language, Programming languages, Mobile Computing, Artificial Intelligence, Serious games, Web systems, Software agents
Disciplines:Programmeertalen en -technologieën, Toegepaste wiskunde in specifieke velden