Project

CELL: Contextueel machinaal leren voor het vertalen van taal

Neuraal machinaal vertalen is een populaire en succesvolle techniek om een brontaal naar een doeltaal te vertalen. Er zijn nog altijd problemen wanneer de brontaal ambigue, vaag of impliciet is, of wanneer woorden nooit werden gezien in de trainingsdata. Neurale netwerken laten toe contextuele informatie te integreren in het vertalingsproces. In CELL, willen we multimodale modellen voor automatisch vertalen (MMT) ontwerpen, ontwikkelen en evalueren die visuele informatie uit beeld integreren in de betekenisrepresentaties gecreëerd door de neurale netwerken. We willen vooral attentiemechanismen bestuderen die inhoud in de bron- en doeltaal aligneren en in geval van MMT die talige informatie aligneert met beeldinformatie. Deze contextuele attentie zal helpen bij het genereren van correctere vertalingen, bij het theoretisch vergelijken met oudere technieken van statistisch automatisch vertalen, en zal bijdragen tot het beter begrijpen van de neurale vertaalmodellen. De ontwikkelde technologieën zullen worden geëvalueerd met een benchmark-dataset dat bestaat uit beeldmateriaal, Engelstalige onderschriften en hun vertaling, met een dataset van e-commerce producten en hun multilinguale beschrijvingen, en met een dataset met meertalige ondertiteling van videodocumentaires, waarbij talen zoals Engels, Duits, Frans, Tsjechisch en Nederlands worden gebruikt.

Datum:1 okt 2019 → 30 sep 2023

Trefwoorden:Natuurlijke taalverwerking, machinaal leren

Disciplines:Natuurlijke taalverwerking

Project

CELL: Contextueel machinaal leren voor het vertalen van taal

Onderzoekers

Project partners

Financiering