< Terug naar vorige pagina

Project

Neurale netwerken in een 3D wereld: leren van geometrie

De populariteit van neurale netwerken is sterk toegenomen gedurende het laatste decennium. Computer Visie onderzoek wordt hier sterk door gedomineerd. De robotica gemeenschap is voor een groot deel verantwoordelijk voor deze toegenomen interesse. Zeker in de wereld van de autonome auto's zijn de applicaties van Computer Visie van groot belang. Een van de redenen hiervoor is de lage kostprijs van een camera sensor, zeker in vergelijking met andere sensoren zoals LiDAR. Een 3D-omgeving interpreteren is nog steeds een moeilijkheid voor een deep learning model. Hierdoor is dit nog steeds problematisch voor taken zoals camera lokalisatie. Voor dit soort opdrachten worden nog steeds handgemaakte geometrische algoritmes gebruikt, hoewel monoculaire camera’s hun nauwkeurigheid kunnen beperken.


Deze thesis onderzoekt manieren waarop de ideeën van deze geometrische algoritmes en deep learning kunnen gecombineerd worden, met als doel de sterktes van beide velden samen uit te buiten. Deze geometrische algoritmes hebben namelijk weinig, of zelfs geen, training data nodig. Een extra voordeel is dat deze beter generaliseren. Daar tegenover heeft deep learning wel een grote dataset nodig om een model te leren, maar het kan vanuit deze data moeilijk te modelleren relaties vinden. In het bijzonder kijken we naar 4 problemen, telkens gericht op toepassingen met enkel een monoculaire camera.

We onderzoeken het gebruik van een diepteschattingsmodel voor het besturen van een quadrotor drone om obstakels te vermijden. We trainen een convolutioneel neuraal netwerk (CNN) om diepte te schatten vanuit een afbeelding. We gebruiken deze dieptekaart om obstakels te detecteren en de drone ervan weg te sturen.

Diepteschatting CNNs ondervinden generalisatie problemen, waardoor het model minder nauwkeurig is op plaatsen die verschillen van de training data. Om dit model te verbeteren, is het typisch nodig om meer data te verzamelen met een gespecialiseerde diepte sensor. In dit werk bespreken we een methode waarbij het model kan verbeterd worden met enkel monoculaire video beelden. Deze beelden zijn eenvoudiger en goedkoper te verzamelen. Hiervoor maken we gebruik van een SLAM algoritme dat normaal last heeft van het schaal ambiguïteitsprobleem. We lossen deze ambiguïteit op door middel van het onvolmaakt diepteschattingsmodel.

We lokaliseren de camera in een gekende omgeving met een combinatie van deep learning en geometrische relaties tussen 3D punten. Het lokaliseren van een camera door middel van een puur geometrische oplossing of een end-to-end deep learning oplossing is niet ideaal. We beschrijven een methode dat deep learning gebruikt om een ruwe locatie te bepalen via visuele kenmerken. Deze locatie verfijnen we door middel van een sleutelpunt detector, die de gedetecteerde punten vergelijkt met de vooraf opgenomen puntenwolk.

Ten laatste, ontwikkelen we een methode om een model te trainen dat 3D bewegingen kan schatten van zichtbare voertuigen, zonder geannoteerde data te gebruiken. Hiervoor gebruiken we een standaard geometrische methode genaamde Iterative Closest points (ICP}). Hiermee aligneren we de puntenwolken van een object op twee tijdstippen, wat we gebruiken als supervisie-signaal voor een CNN. Hierdoor leert het model om de 3D beweging te schatten van objecten, gebruikmakend van een sequentie van monoculaire camera beelden.

Datum:16 aug 2016 →  15 jan 2021
Trefwoorden:Compressie
Disciplines:Nanotechnologie, Ontwerptheorieën en -methoden
Project type:PhD project