< Terug naar vorige pagina

Project

Functie normen voor neurale netwerken: theorie en toepassing

Diepe neurale netwerken (DNN’s) hebben zich bewezen als krachtige tools voor een groot aantal toepassingen van Machine Learning. De successen van deze modellen zijn de afgelopen jaren explosief toegenomen variërend van beeldherkenning en segmentatie, tot het begrijpen en genereren van tekst en spraak. Onze theoretisch begrip is echter nog beperkt gebleven, zeker in verhouding tot de grote toename van toepassingen.

Op basis van klassieke theorieën van statisch en gestructureerd leren, richten we ons in dit proefschrift op het ontwikkelen, analyseren en toepassen van een maat voor de complexiteit van een neuraal netwerk. De ontwikkeling van deze maat zet een belangrijke stap naar het begrijpen van welke klasse functies exact overspannen wordt door een neuraal netwerk. Deze maat kan gebruikt worden om te regulariseren of om modellen te vergelijken. Meer specifiek, onderzoeken we de haalbaarheid en het potentieel van het gebruik van de functie-norm als maat voor de complexiteit.

Eerst tonen we aan dat het berekenen van functie-normen van een diep neuraal netwerk met 3 of meer lagen onhaalbaar is. Door het Max-Cut NP-complete probleem te reduceren, tonen we aan dat het NP-hard is om te weten of een functie norm al dan niet nul is. Toch observeren we dat normen berekend met respect tot een probabiliteit, effectief kunnen benaderd worden op basis van een bemonsteringsmethode. Het gebruik van deze benadering als regularisatie is verder onderzocht zowel theoretisch als experimenteel. Theoretisch bewijzen we een generalisatie grens onder realistisch voorwaarden voor modellen die zich bevinden in een subruimte gedefinieerd door deze benaderde norm. Experimenteel testen we deze regularisator op verschillende modellen, benchmarks en op medische afbeeldingen voor een real-life toepassing. De resultaten bevestigen het positieve effect van verminderde overfitting.

Een ander potentieel gebruik van deze maat van complexiteit is om modellen te vergelijken. De geschatte norm functie die we voorstellen, kan als metriek dienen. We analyseren deze metriek voor twee onderzoeksrichtingen: continu leren en compressie van modellen.

Bij continu leren is het doel om te leren van een continue stroom gegevens. Het model kan een reeks gegevens of taken ontvangen en heeft als doel continu hiervan te leren. De uitdaging in deze setting is om de opgebouwde kennis te behouden zonder toegang te hebben tot eerder geziene data, met andere woorden het “catastrofaal vergeten” te overwinnen. Een mogelijke oplossing voor dit probleem is om de training van de meest recente taak te beperken en zo te voorkomen dat informatie verloren gaat die cruciaal is voor een vorige taak. Een dergelijke beperking kan worden gedefinieerd door middel van een afstand klein te houden tussen twee submodellen. We stellen een oplossing voor waarbij de cruciale informatie van een taak wordt vastgelegd met een auto-encoder die is getraind op de output van de vroege lagen van een netwerk. We voorkomen daarmee dat het submodel verkregen door het stapelen van deze vroege lagen en de getrainde encoder tijdens de training verandert. We bereiken dit doel door de geschatte afstand te begrenzen tussen het submodel dat is verkregen aan het einde van de training van de vorige taak en het submodel dat is getraind in de huidige taak. Het gebruik van deze methode op benchmarks toont een verbetering ten opzichte van andere state-of-the-art methodes.

Modelcompressie is een andere belangrijke onderzoeksrichting in Deep Learning van de afgelopen jaren. De opkomst van mobiele en ingesloten toepassingen voor machine learning, zoals smartphones, zelfrijdende auto's, intelligente medische apparaten, heeft de interesse voor kleine en efficiënte modellen vergroot. Bij modelcompressie willen we de grootte van een model verminderen zonder de prestaties aanzienlijk te verslechteren. De voorgestelde geschatte afstand tussen het origineel en het gecomprimeerde model biedt een goede proxy voor dit prestatieverlies. We stellen een methode voor gebruikmakend van deze maat in een Bayesiaans optimalisatiekader. Onze resultaten tonen aan dat deze aanpak, gecombineerd met een gespecialiseerde Bayesiaanse optimalisatiemethode, sneller convergeert en een beter Pareto-front behaalt op vlak van grootte vs. prestaties.

Over het algemeen onthult dit proefschrift een fundamentele tekortkoming bij het toepassen van vanille statistische leer-gebaseerde regularisatie methodes op DNN functie ruimtes. Toch biedt dit proefschrift technieken aan om deze beperking te omzeilen en complexiteitsmaten te hanteren in deze ruimtes. Het gebruik van deze maten als een regulariser en als een afstandsmaat wordt geanalyseerd in meerdere scenario's en op verschillende benchmarks. De positieve impact van deze benaderingen laat zien dat theoretische en praktische studie van DNN-functieruimte hand in hand kan werken om effectieve verbeteringen aan machine learning-systemen op te leveren.

Datum:18 okt 2016 →  7 mei 2020
Trefwoorden:deep neural networks, medical image analysis
Disciplines:Nanotechnologie, Ontwerptheorieën en -methoden
Project type:PhD project