< Terug naar vorige pagina

Project

Een StarAI aanpak voor veiligheid in lerende computersystemen


Kunstmatige intelligentie (AI) is tegenwoordig overal te vinden in het dagelijkse leven. Echter hebben talrijke ongelukken die te maken hebben met AI onderzoek en toepassingen de potentiële risico’s duidelijk gemaakt. Er ontwikkelen zich toenemende vrezen over het schaden van mens en maatschappij  vanuit incidenten zoals grof sprekende taalmodellen, en robotische systemen die lichamelijk letsel veroorzaken. Het ontwerpen van AI-systemen die enkel leren uit te voeren wat de ontwerper bedoelde, en geen schadelijk gedrag vertonen, is nog steeds een onopgelost onderzoeksprobleem. Veiligheid staat hierbij centraal. In deze context houdt veiligheid in dat een systeem geen gedrag mag vertonen dat schadelijk voor de omgeving of zichzelf is.

Deze scriptie beantwoordt hoe veiligheid gekwantificeerd kan worden, en hoe we een beslissing makende agent kunnen voorzien van veiligheidsgaranties in relationele, stochastische en gedeeltelijk observeerbare omgevingen. We richten ons op de integratie van machinaal leren en verificatie vanuit het oogpunt van statistisch relationele AI (StarAI). StarAI is een onderzoeksgebied dat zich bezig houdt met de ontwikkeling van intelligente agenten die geen perfecte waarnemingen verwerken, en moeten handelen in een relationele en stochastische omgeving. Hoewel veiligheid tot nu toe niet een richtpunt van StarAI is geweest, heeft het onderzoeksgebied krachtige inferentie- en leermethoden ontwikkeld die de potentie hebben om uiteindelijk ook veiligheidsgaranties te bieden aan lerende systemen. We onderzoeken de mogelijkheden hiervan door de concepten en technieken van StarAI uit te breiden en toe te passen.

De eerste bijdrage van dit werk is PCT-REBEL, een nieuwe methode om probabilistische modellen te controleren. Dit is efficiënter dan bestaande methodes en kan onbegrensde modellen controleren, omdat het op een relationeel, in plaats van een propositioneel, niveau werkt. De tweede bijdrage is een framework voor probabilistische logica (PLPG) om veilig reinforcement learning uit te kunnen voeren. PLPG kan moeiteloos op elk ander algoritme voor beleidsgradiënten worden toegepast terwijl het oorspronkelijke garanties tot convergentie behoudt. Dit leidt tot veiligere en meer belonende beleidsalgoritmen vergeleken met de beste andere beschermtechnieken. De derde bijdrage is een efficiënte techniek om parameters te leren (PL) voor programma's in probabilistische logica. Het versnelt EM-leren en maakt PL met meerwaardige willekeurige variabelen mogelijk. 
Het verwerken van dit soort variabelen was voorheen niet mogelijk voor PL algoritmes. Naast de theoretische motivatie bevatten alle bijdragen experimentele resultaten. Hiermee tonen we praktische toepassingen en de haalbaarheid van de berekeningen voor computers. Tot slot bewijzen ze dat het toepassen van kansberekening en logica van de eerste orde tot leidt tot verbeteringen in de veiligheid. De resultaten zijn te vinden op https://github.com/wenchiyang.

Datum:24 sep 2018 →  20 jun 2023
Trefwoorden:verification, artifitial intelligence
Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen
Project type:PhD project