Project

'Deep Learning' methodes om multimodale representaties te leren

Een interessante uitdaging in deep learning onderzoek is de mogelijkheid om verschillende modaliteiten te verwerken. Van bijzonder belang zijn taal en visie, die een aanzienlijk deel uitmaken van leerboeken, websites, medische gegevens en andere belangrijke media. Deze modaliteiten hebben echter zeer verschillende kenmerken. Menselijke communicatie maakt gebruik van discrete symbolen, terwijl visuele informatie gemakkelijker wordt uitgedrukt door continue reeksen van kleur en helderheid. Kunstmatige neurale netwerken gebruiken doorgaans vectoren met continue waarden om informatie weer te geven. Dit leunt dichter aan bij de aard van visie dan bij die van taal, dat op symbolen gebaseerd is. Bij neurale netwerktraining wordt de tekstuele informatie daarom meestal omgezet in een continue vector die geschikt is voor methodes die gradiënten berekenen en propageren.

In dit proefschrift onderzoek ik manieren om de kloof tussen taal en visie in neurale netwerken te overbruggen. Ik onderzoek hoe continue taalvectoren kunnen worden geïntegreerd in verschillende interessante omstandigheden. Daarnaast suggereer ik verschillende verbeteringen en onderzoeksrichtingen voor huidige neurale netwerkrepresentaties. Dit leidt tot een aantal belangrijke bijdragen die als volgt kunnen worden samengevat.

Eerst onderzoek ik hoe de omzetting van zinnen naar gedistribueerde tekstuele vectoren nuttig kan zijn voor verschillende applicaties. Ik toon aan dat zulke vectoren geevalueerd kunnen worden door ze om te zetten naar beelden. Bovendien kunnen zulke technieken gebruikt worden om beslissingen door neurale netwerken uit te leggen. Ik demonstreer een methodologie om een tegenvoorbeeld te genereren voor een bepaalde diagnosis.

Ik haal inspiratie uit menselijke communicatie, die gebruik maakt van discrete symbolen, om mogelijke verbeteringen voor huidige neurale netwerkrepresentaties voor te stellen. In plaats van alleen te vertrouwen op continue vectoren, stel ik voor om discrete symbolen of extra structuur toe te voegen. Ik stel dat deze benadering zal leiden tot betere generalisatie- en redeneringscapaciteiten in neurale netwerkmodellen. Ik illustreer dit met twee concrete applicaties. In de eerste applicatie ontwerp ik een nieuwe methode met neurale netwerken om representaties te leren die worden bekomen op basis van verschillende modaliteiten. Deze representaties combineren gewenste eigenschappen van zowel discrete als continue representaties. Ze worden geleerd door afstanden tussen klasse en contextuele verdelingen in te schatten. De tweede applicatie gebruikt een pose-onafhankelijke 2D-weergave met een rechtstreekse link naar 3D-informatie. Deze representaties zijn semantische gelijkaardig, zodat bepaalde delen van een object altijd op dezelfde locatie van de representatie worden afgebeeld. Ik laat zien hoe dit kan worden gebruikt in een generatief 3D-model waarin taal de visuele kenmerken zoals de vorm en de kleur bepaalt.

De belangrijkste conclusie van het proefschrift is dat, hoewel de huidige neurale netwerkrepresentaties interessante eigenschappen hebben om taal en visie te overbruggen, de opname van discrete componenten kan leiden tot gewenste verbeteringen. Door meer structuur op te leggen of discrete symbolen toe te voegen, kunnen neurale netwerken meer controle en compositie bereiken. Ik demonstreer dit in twee concrete applicaties en geven verschillende interessante richtingen aan voor toekomstig onderzoek.

Datum:8 jun 2017 → 5 jan 2021

Trefwoorden:Deep learning, Information Extraction

Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen

Project type:PhD project

Project

'Deep Learning' methodes om multimodale representaties te leren

Onderzoekers

Project partners

Financiering

Publicaties