Project

Ruimtelijke representatie in modellen van afbeeldingen en tekst met toepassingen voor het indexeren van medische documenten en autonoom rijden

Het project richt zich op het probleem van de interactie tussen de autonome systemen en de gebruikers op een manier waarbij de visuele en taalinformatie worden gebruikt om elkaar aan te vullen en te versterken, door representaties te leren die gezamenlijk de betekenis van taal en de visuele realiteit vastleggen en die toestaan visuele situaties die in visuals vertaald moeten worden in taal en taal. De aanpak is gebaseerd op het gebruik van neurale netwerken, of meer specifiek, multimodale auto-encoders en generatieve adversariale netwerken getraind op gepaarde visuele en tekstuele datasets. De nadruk ligt op het leren en toepassen van multimodale embeddings die kunnen generaliseren naar meerdere verschillende taken en zowel de objecten en acties in visuele scènes als de lexicale inhoud en de grammaticale organisatie van hun corresponderende taalbeschrijvingen vertegenwoordigen.

Datum:1 okt 2018 → 20 dec 2022

Trefwoorden:Deep Learning, Multimodal Learning, Computer Vision

Disciplines:Nanotechnologie, Ontwerptheorieën en -methoden

Project type:PhD project

Project

Ruimtelijke representatie in modellen van afbeeldingen en tekst met toepassingen voor het indexeren van medische documenten en autonoom rijden

Onderzoekers

Project partners

Financiering

Publicaties