Project
Beeld en tekst ruimtes overbruggen door gebruik te maken van neurale netwerk methodes om multimodale representaties te leren en ruimtelijk inzicht
Beeld- en tekstgegevens zijn alomtegenwoordig in het huidige informatietijdperk en verschijnen in een eindeloze reeks bronnen, variërend van e-commerce tot sociale media en wetenschappelijke artikelen. Toepassingen die deze gegevens automatisch begrijpen, ophalen of voorspellen, zijn afhankelijk van goede representaties voor zowel beeld- als tekstgegevens. Onlangs hebben deep learning methodes de kwaliteit van dergelijke representaties aanzienlijk verbeterd. Naast goede representaties voor de visuele en tekstmodaliteiten, vereisen taken in het dagdagelijks leven vaak de opbouw van mappings tussen visuele en tekstrepresentaties. Deze thesis presenteert nieuwe fundamentele bevindingen met betrekking tot de mapping tussen verschillende modaliteiten door gebruik te maken van neurale netwerken, en identificeert enkele vaak over het hoofd geziene tekortkomingen.
Een ander belangrijk doel van tekstuele en visuele taken in AI is het leren van goede, informatievere, multimodale representaties die kenmerken vastleggen van beide modaliteiten. In dit verband introduceren we nieuwe modellen die gebruikmaken van cross-modale neurale netwerkmappings om multimodale representaties te leren.
Deze thesis heeft ook een belangrijke focus op ruimtelijk inzicht. We introduceren neurale netwerkmodellen die in staat zijn om ruimtelijke informatie te voorspellen die alleen impliciet in tekst beschreven wordt. “Man rijdt op paard” beschrijft bijvoorbeeld niet de locatie van de man, maar vertelt ons impliciet dat de man op het paard zit. Verder presenteren we nieuwe modellen die ons toe laten om snel scènes te begrijpen door gebruik te maken van dergelijke ruimtelijke aanwijzingen.