Project

Onderzoek naar ongesuperviseerde leertechnieken voor computervisietaken met neurale netwerken

Traditionele gesuperviseerde methoden voor computervisie vertrouwen meestal op
grote, uitgebreid geannoteerde datasets die duur, bevooroordeeld en ambigu kunnen zijn.
Dit proefschrift onderzoekt zelf-gesuperviseerde of ongesuperviseerde methoden als
een alternatief om deze obstakels te overwinnen. Concreet pakt het fundamentele taken
aan met neurale netwerken en is het doel om intrinsieke structuren uit de afbeeldingen
zelf te ontdekken. Over het algemeen probeert dit werk de onderscheidende visuele
kwaliteiten van objecten, of hun onderdelen, zonder annotaties te leren en te benutten.
We tonen dit aan door gebruik te maken van grote hoeveelheden publieke afbeeldingen.

Na de achtergrond te hebben behandeld, richt ons eerste hoofdstuk zich op
het leren van generieke representaties van afbeeldingen, terwijl de volgende
hoofdstukken eerder fundamentele computervisietaken behandelen zonder labels,
zoals afbeeldingsclassificatie, semantische segmentatie en instantiesegmentatie. Het
proefschrift biedt een aantal methoden voor om computervisietaken aan te pakken
wanneer annotaties moeilijk te verzamelen zijn, bijvoorbeeld voor domeinspecifieke
toepassingen. Onze experimenten tonen aan dat de gepresenteerde methoden
semantische representaties of groepen opleveren, wat voordelig is voor clustering,
semi-supervised learning of transfer learning.

Om onze tocht te beginnen, onderzoekt het eerste hoofdstuk hoe biases in datasets
het leren van algemene representaties beïnvloeden wanneer labels ontbreken. In
het bijzonder ontdekken we dat de huidige state-of-the-art verrassend goed werkt
op een reeks uitdagende datasets, dat wil zeggen op scène-centrische, longtailed en
domeinspecifieke datasets. Aangezien deze methode opmerkelijk algemeen van aard
is, bouwen we erop voort en bereiken we verbeteringen door extra invarianties te
introduceren. We verkennen eenvoudige maar effectieve strategieën, met name door
gebruik te maken van sterkere data-augmentaties en het opleggen van consistentie
tussen nearest neighbors. Het belangrijkste is dat dit hoofdstuk laat zien dat de
aangeleerde representaties ruimtelijk gestructureerd zijn, waardoor ze effectief zijn bij
het aanpakken van complexe computervisietaken. Dit verklaart tegelijkertijd hun sterke
prestaties in semantic segment retrieval en video instance segmentation.

Vervolgens behandelen we het probleem van het groeperen van afbeeldingen in
semantisch betekenisvolle clusters wanneer annotaties niet beschikbaar zijn. Om
dit uitdagende probleem van beeldclassificatie aan te pakken, pleiten we voor een
framework met twee stappen dat feature learning en clustering loskoppelt. De
eerste fase extraheert betekenisvolle kenmerken door onze voorgaande methode te
gebruiken. De verkregen kenmerken worden vervolgens gebruikt als priors voor de
clustering. Belangrijk is dat deze tweeledige tactiek minder snel groepen voortbrengt
die zich vastklampen aan low-level eigenschappen, een veelvoorkomend probleem met
bestaande end-to-end methodologieën. De gepresenteerde methode is de eerste die
bemoedigende resultaten behaalt op een grootschalige dataset voor beeldclassificatie,
en presteert met ruime marges beter dan state-of-the-art.

Na veelbelovende resultaten voor ongesuperviseerde beeldclassificatie, waagt het
proefschrift zich nu aan het leren van beeldrepresentaties op pixelniveau, zonder te
vertrouwen op annotaties. In het bijzonder presenteert de thesis een nieuwe twee-
stapsmethode die gebruikmaakt van een mid-level visual prior in een contrastieve
optimalisatiedoelstelling. Deze methode kan de aangeleerde representaties direct
clusteren in semantische groepen met behulp van K-means op pixelniveau. Merk op dat
er momenteel geen precedent is in het aanpakken van de semantische segmentatietaak
op uitdagende benchmarks, aangezien eerdere benaderingen voornamelijk datasets met
een beperkt visueel domein aanpakten. Bovendien kan onze voorgestelde aanpak beter
presteren dan sterke baselines bij overdracht naar nieuwe datasets.

Vervolgens presenteren we een nieuw framework voor ongesuperviseerde semantische
segmentatie en instantiesegmentatie. Om het belangrijkste nadeel van ons vorige
model aan te pakken, proberen we de lokalisatiemogelijkheden te verbeteren door
nauwkeurigere objectmaskers te detecteren en te segmenteren. Om dit doel te
behalen, stellen we een datagestuurde methode voor voor het genereren van object
kandidaten die pixels groeperen a priori. In tegenstelling tot eerder werk, maakt onze
voorgestelde methode gebruik van een data-gedreven strategie om pixels te groeperen
die waarschijnlijk tot hetzelfde object of onderdeel behoren. Het belangrijkste is dat dit
de behoefte voor handgemaakte priors voorkomt, aangezien deze vaak zijn afgestemd
op specifieke scènecomposities, waardoor hun toepasbaarheid beperkt is.

De empirische validatie van de voorgestelde methoden vertoont bemoedigende tekenen
op een reeks populaire computervisie datasets. Daarom werpt dit proefschrift licht op
het potentieel van niet-gesuperviseerde of zelf-gesuperviseerde technieken om enkele
nadelen van conventionele gesuperviseerde methoden te verlichten. Ondanks een
merkbaar verschil in prestaties voor meer uitdagende taken, zoals instantiesegmentatie,
stellen we dat toekomstige ontwikkelingen en misschien multimodale gegevens kunnen
helpen deze kloof te dichten met gesuperviseede methoden. Daarom besluit dit proefschrift
met het bespreken van verschillende beperkingen en pistes voor toekomstig onderzoek.
Ten slotte zijn de code en modellen openbaar beschikbaar op https://github.com/wvangansbeke.

Datum:5 dec 2018 → 10 jul 2023

Trefwoorden:Machine Learning, Deep Learning, Scene Understanding, Self-Supervised Learning, Unsupervised Learning, Computer Vision

Disciplines:Machine learning en besluitvorming, Computervisie

Project type:PhD project

Project

Onderzoek naar ongesuperviseerde leertechnieken voor computervisietaken met neurale netwerken

Onderzoekers

Project partners

Financiering

Publicaties