< Terug naar vorige pagina

Project

Bruikbare schattingen voor het bereiken van een hogere modelefficiëntie in computervisie

In de jaren 2010 zijn de eerste grootschalige successen van computervisie `in het wild' gezien, die de weg vrijmaakten voor industriële toepassingen. Dankzij de enorme toename van de rekencapaciteit van consumentenelektronica stonden convolutionele neurale netwerken voorop in deze revolutie.Deze modellen bleken - met voldoende toezicht - in staat te zijn om de menselijke nauwkeurigheid te overtreffen bij veel visuele perceptietaken. Ondertussen wordt het steeds belangrijker om, in plaats van uitsluitend te focussen op nauwkeurigheid, algoritmen te ontwerpen die werken binnen de grenzen van een rekenbudget, in termen van wachttijd, geheugen of energieverbruik. Door de toepassing van algoritmen voor visuele perceptie in tijdkritische besluitvormingssystemen (zoals autonoom rijden) en edge computing (bv. in smartphones) staat het zoeken naar efficiëntie steeds meer centraal in het onderzoek naar machine learning.

Hoe kan de optimalisatie van bestaande modellen worden verbeterd om een hogere nauwkeurigheid te bereiken en tegelijk te voldoen aan dergelijke verwerkingsvoorwaarden? Kunnen we zoeken naar modellen die voldoen aan de verwerkingsvereisten en tegelijkertijd de nauwkeurigheid van de taak verbeteren? Deze vragen zijn twee zijden van dezelfde medaille en dit proefschrift onderzoeken we ze allebei. Enerzijds ontwikkelen we nieuwe methoden om modelparameters op een gecontroleerde manier te leren, waardoor de nauwkeurigheid van de doeltaak wordt verbeterd zonder de efficiëntie van deze modellen tijdens de testtijd te beïnvloeden. Anderzijds bestuderen we het probleem van het zoeken naar modellen, waarbij het model zelf moet worden geselecteerd uit een familie van modellen om een aanvaardbare nauwkeurigheid te bereiken binnen begrensde voorwaarden.

Hoofdstuk 3 introduceert het waarschijnlijk submodulaire raamwerk voor het leren van het relatieve gewicht van paarsgewijze willekeurige grafische modellen. Grafische modellen zijn expressieve en populaire modellen, die met name gebruikt worden in semantische uitsplitsing. Hun inferentie is echter over het algemeen NP-hard. Om een efficiënte inferentie te garanderen is het noodzakelijk om de tijdens de training geleerde waarden te beperken. Populaire hanteerbaarheidsvoorwaarden zijn ongetwijfeld submodulaire voorwaarden; ze zorgen ervoor dat de lokale potentiële functies van het model submodulair zijn voor elke input tijdens de testtijd. We laten zien dat deze voorwaarden vaak te conservatief zijn. In plaats van op te leggen dat het grafische model submodulair is voor elke inputgrafiek, is het voldoende om submodulariteit te garanderen met een hoge waarschijnlijkheid voor de dataverdeling van de taak. We tonen op verschillende semantische segmentatie- en multi-label classificatie datasets de meerwaarde van deze benadering, waarbij de corresponderende winst in expressiviteit en nauwkeurigheid van het model wordt gevalideerd, zonder de efficiënte inferentie tijdens de testtijd in gevaar te brengen.

Hoofdstuk 4 biedt verbeterde optimalisatiemethoden om de testtijdfout van semantische segmentatiemodellen te verminderen door nieuwe taakspecifieke verliezen te introduceren. In de afgelopen jaren hebben convolutionele neurale netwerken de stand van de techniek in semantische segmentatie gedomineerd. Deze netwerken worden meestal getraind met een verlies van cross-entropie, die gemakkelijk te gebruiken is binnen optimalisatieschema's van de eerste orde. Segmentatiebenchmarks worden echter meestal geëvalueerd onder andere metrische gegevens, zoals de intersection-over-union meting of Jaccard-index. Een directe optimalisatie van deze meting is complex maar kan een lager foutenpercentage opleveren. Deze winst is relevant voor toepassingen, aangezien is aangetoond dat de Jaccard-index dichter bij de menselijke perceptie ligt en profiteert van schaalinvariantie-eigenschappen. Met behulp van de Lovász-uitbreiding van submodulaire setfuncties, ontwikkelen we bruikbare surrogaten voor de optimalisatie van de Jaccard-index in de binaire en multi-label-instellingen, compatibel met eerste orde optimalisatoren. We demonstreren de winst van onze methode in termen van de doelstatistiek op binaire en multi-label semantische segmentatieproblemen, met behulp van de nieuwste convolutionele netwerken op de Pascal VOC en CityScapes datasets.

Hoofdstuk 5 behandelt het probleem van het zoeken naar neurale architectuur, waarbij men het best presterende model wil selecteren dat voldoet aan de computationele vereisten van een grote zoekruimte. We richten ons op het aanpassen van de kanaalnummers van een gegeven neurale netwerkarchitectuur, d.w.z. het aantal convolutionele filters in elke laag van het model. We ontwikkelen eerst een methode om de latentie van het model te voorspellen op basis van de kanaalnummers, met behulp van een methode die berust op de kleinste kwadratische schatting van de voorspeller zonder dat we voor de berekening toegang nodig hebben tot details op laag niveau op de inferentie toestel. Vervolgens bouwen we een proxy voor de modelfout die additief wordt afgebroken over individuele kanaalkeuzes, door geaggregeerde trainingsstatistieken van een reduceerbaar model op dezelfde zoekruimte te gebruiken. De associatie van het gepaarde latentiemodel en de unaire foutschattingen leidt tot een doelstelling die efficiënt kan worden geoptimaliseerd met behulp van het Viterbi-algoritme, wat de OWS-methode oplevert. Een verfijning van OWS, genaamd AOWS, beperkt adaptief de zoekruimte in de buurt van optimale kanaalconfiguraties tijdens de training van het reduceerbare netwerk. We valideren onze aanpak over verschillende inferentiemodaliteiten en laten verbeterde eindprestaties zien van de geselecteerde modellen binnen gegeven rekenbudgets.

Over het algemeen stelt dit proefschrift nieuwe methoden voor om de afweging tussen nauwkeurigheid en efficiëntie van hedendaagse modellen voor machine learning te verbeteren, met behulp van methoden die zijn afgeleid van eerste principes en gevalideerd door experimenten op verschillende hedendaagse problemen met digitale visuele perceptie. Dit onderzoek effent de weg naar een slimmer gebruik van de computationele vermogens van machine learning methoden, waardoor de trend van 'bredere en diepere' modellen wordt afgeremd om de uitdagingen aan te gaan van tijdkritische en koolstofneutrale AI.

Datum:4 jul 2016 →  14 sep 2020
Trefwoorden:Graphical models, structured output prediction, neural networks, computer vision, machine learning
Disciplines:Kennisrepresentatie en redenering, Computervisie, Patroonherkenning en neurale netwerken
Project type:PhD project