Project

Componenten zijn belangrijk: Compositionaliteit overwegen voor visuele representaties

In deze dissertatie onderzoeken we de compositionele eigenschappen van afzonderlijke beelden en beeldreeksen voor visuele representaties, met als doel de voordelen van het beschouwen van deze eigenschappen te onderzoeken.
In realistische beelden kan deze compositionele eigenschap worden waargenomen in de veelvoud
verschillende kenmerken waaruit ze zijn opgebouwd.
Vergelijkbaar met enkelvoudige beelden hebben ook beeldverzamelingen de compositorische eigenschap, waarbij een verzameling is samengesteld uit meerdere beelden die uit meerdere verschillende kenmerken bestaan.

In de eerste twee delen van het proefschrift richten we ons op het scenario met een enkel beeld.Eerst stellen we een methode voor om de componentrepresentaties te identificeren die belangrijk zijn voor de voorspelling van een vooraf getraind model, gegeven een inputbeeld.
Door gebruik te maken van de methode om representaties te visualiseren, genereren we ook visuele verklaringen die de belangrijke regio's van de inputbeelden benadrukken.
Vanuit een aanvullend aspect, in het volgende hoofdstuk, coderen we actief twee soorten kenmerken, aanwezig op de inputs, afzonderlijk.
Ervan uitgaande dat beelden zijn samengesteld uit stijl- en vormkenmerken, ontwarren we de twee kenmerken en combineren dan de ontwarren stijl- en vormweergaven van twee verschillende beelden om een nieuw beeld te synthetiseren, waarbij het uiterlijk (stijl) van het nieuwe beeld hetzelfde is als het originele, terwijl de vorm verschillend is. Zo bereiken we ongepaarde vormvertaling (vorm veranderen, uiterlijk behouden).

Vervolgens verplaatsen we onze onderzoeksinteresse naar het scenario waarin sets van afbeeldingen worden beschouwd.
We gebruiken eerst een set bestaande uit beelden die hetzelfde object bevatten om het object nauwkeurig te lokaliseren.
Gebaseerd op het feit dat de object-specifieke representaties zeer gelijkaardig moeten zijn over verschillende beelden van dezelfde klasse, ontwerpen we een regularisatie om de Class Activation Mapping gebaseerde lokaliseringskaart aan te passen.
Ten tweede gebruiken we een set van hoge-resolutie gezichtsbeelden als voorbeelden om een model te helpen bij het hallucineren van lage-resolutie beelden.
Wij geloven dat meer voorbeelden meer bruikbare visuele informatie opleveren.
Om optimaal de informatie uit een set van voorbeelden te halen, ontwerpen we een module om de meest bruikbare componentrepresentatie uit de sets te vinden en te combineren.
Tenslotte pakken we het algemene multiple instance leerprobleem aan, waarbij het model leert en voorspelt op basis van (ongeordende) sets van elementen.
We stellen voor om iteratief representaties op set-niveau te leren via LSTMs.
Hoewel LSTM's hier niet vaak voor gebruikt worden, tonen we aan dat ze in staat zijn om ongeordende sets te modelleren, gebaseerd op hun geheugencapaciteit.De prestaties zijn concurrerend en overtreffen zelfs methoden die zijn toegesneden op het oplossen van multiple instance leerproblemen.
We laten ook zien dat LSTM's indirect informatie op instellingsniveau kunnen vastleggen door alleen annotaties op instellingsniveau te gebruiken.

Datum:19 sep 2017 → 26 nov 2021

Trefwoorden:Re-identification, Retrieval, Fashion item

Disciplines:Nanotechnologie, Ontwerptheorieën en -methoden

Project type:PhD project

Project

Componenten zijn belangrijk: Compositionaliteit overwegen voor visuele representaties

Onderzoekers

Project partners

Financiering

Publicaties