Project
Multimodale representaties gebaseerd op beeld en tekst
Er zijn veel taken die vragen om multi-modale voorstellingen; het beantwoorden van visuele vragen, modaliteitsoverschrijdende opzoekingen, het leggen van zinsverbanden met beelden, etc. Deze domeinen worden met elkaar verbonden door de nood aan methoden, die alle modaliteiten kunnen weergeven in een gedeelde latente ruimte. Deze ruimte moet gestructureerd zijn en de samenhang tussen de signalen vatten, die voortkomen uit de data. In deze thesis, stellen we ons tot doel om de verschillende methoden te onderzoeken en te verbeteren, die gericht zijn op het leren van multimodale voorstellingen. In het bijzonder zullen we aandacht besteden aan het verbeteren van leermethoden voor individuele unimodale voorstellingen, het vinden van betere wegen om unimodale voorstellingen in een multimodale opzet te integreren en het ontwikkelen van methoden, die simultaan multimodale voorstellingen leren uit verschillende datastromen.