< Terug naar vorige pagina

Project

Aantoonbaar veilige, lerende controle van onzekere systemen

Een goed ontworpen controller is onzichtbaar en vereist geen menselijke betrokkenheid na implementatie. Dit hangt af van twee cruciale eigenschappen: certificeerbare veiligheid en aanpassingsvermogen.Controletheorie adresseert veiligheid door stabiliteit te waarborgen, te voldoen aan beperkingen op de trajecten, enz. Dit is mogelijk door aannames op te leggen op het dynamische systeem. Dit beperkt echter vaak de aanpasbaarheid -- een kernkenmerk van machine learning (ML) en reinforcement learning (RL), die uitblinken in spelachtige omgevingen maar beperkte toepassingen hebben in veiligheidskritieke scenario's.

Deze scriptie draagt bij aan het opkomende veld van lerende controle, met als doel garanties uit klassieke controle theorie te combineren met het aanpassingsvermogen van ML. De focus ligt op het nemen van data gebaseerde optimale beslissingen in stochastische omgevingen, wat cruciaal is in operations research en regeltechniek. Ons belangrijkste instrument, Distributioneel Robuuste Optimalisatie (DRO), maakt robuustheid mogelijk tegen onzekerheid in de kansverdeling door integratie met technieken uit de statistische leertheorie en concentratie-ongelijkheden en laat toe om data-gestuurde optimale beslissingen te nemen met garanties.

Van belang zijn de volgende bijdragen. Ten eerste presenteren we aantoonbaar veilige lerende controle voor lineaire dynamica met ruis die afhankelijk is van de staat en input. Dit omvat het construeren van betrouwbaarheidsintervallen voor de eerste twee momenten van de ruisverdeling en het oplossen van het Linear Quadratic Regulator (LQR) probleem met behulp van DRO. In tegenstelling tot black-box ML, kunnen we de prestatie verbeteren door gedeeltelijke kennis van de dynamica te benutten. We bestuderen hoeveel data nodig is om een bepaalde performantie te garanderen en waarborgen stabiliteit in zowel scenario's waarin ruis rechtstreeks wordt waargenomen of wanneer enkel staatsmetingen beschikbaar zijn. Ten tweede presenteren we een distributioneel robuuste model predictive control methode voor lineaire dynamica met additieve ruis, waarbij de momenten van de ruis uit data worden geleerd terwijl de voldoening aan beperkingen met hoge waarschijnlijkheid en recursieve haalbaarheid wordt gewaarborgd. Ten derde introduceren we een nieuwe manier om een DRO-geïnspireerde proxy-kost te ontwerpen voor data-gedreven stochastische programmering. Onze methode - genaamd Orderd Risk Minimalisatie (ORM) - maakt gebruik van resultaten gerelateerd aan geordende steekproeven om statistische garanties vast te stellen, zonder conservatieve concentratie-ongelijkheden. Deze aanpak heeft verbeterde generalisatie, zoals geïllustreerd in experimenten.

Datum:1 sep 2019 →  31 okt 2023
Trefwoorden:risk-averse, optimization, machine learning, adaptive control, learning control, model predictive control
Disciplines:Systeemtheorie en -controle, Variatieberekening, optimale controle en optimalisatie, Machine learning en besluitvorming
Project type:PhD project