< Terug naar vorige pagina

Project

Betekenis geven aan geluid

Het onderzoeksveld rond spraakverwerking is sterk ontwikkeld op zowel wetenschappelijk als technologisch vlak. Het feit dat speciale aandacht wordt besteed aan spraak is vanzelfsprekend: het is een van de meest belangrijke manieren waarop mensen met elkaar communiceren. Toch zijn er ook andere geluiden die belangrijk kunnen zijn in eenieders leven, zoals een deur die wordt geopend, een auto die voorbij rijdt, een baby die schreeuwt, een alarmbel die luidt, enzovoort. Maar het domein rond herkenning van omgevingsgeluiden is pas recent populair geworden, en bijgevolg is in deze discipline tot nu toe veel minder vooruitgang geboekt. Het doel van deze thesis is om een bijdrage te leveren aan dit studiegebied door de onderzoeksactiviteiten te verbreden en door een aantal beperkingen van de huidige paradigma's aan te pakken.

Een voor de hand liggende opportuniteit voor het verbeteren van actuele geluidsherkenningssystemen ligt in het gebruik van niet-akoestische modaliteiten. Visuele informatie in het bijzonder zou nuttig kunnen zijn bij het voorspellen van geluiden. Deze strategie is ook logisch als we denken aan potentiële toepassingen: Mensen maken gebruik van zowel akoestische als visuele aanwijzingen om hun omgeving op een nauwkeurige en volledige manier in te schatten. Daarom is het dus ook essentieel om onderzoek te doen naar machines die beide kennisbronnen kunnen benutten voor het interpreteren van wat er rondom hen gebeurt. In sommige gevallen zou tekstuele data ook een rol kunnen spelen. Het hoofddoel van dit project is te onderzoeken hoe deze extra modaliteiten kunnen toegevoegd worden aan geluidsherkenningsmodellen en na te gaan wat de invloed hiervan is op hun performantie. We tonen aan dat zogenaamde transfer learning-technieken met visuele features erin slagen om betere resultaten te behalen in meerdere situaties, en dat zowel voor traditionele als meer recente deep learning-architecturen zoals transformers.

Datum:21 sep 2017 →  28 apr 2023
Trefwoorden:Cross-modal representations, Weakly annotated sound mixtures
Disciplines:Nanotechnologie, Ontwerptheorieën en -methoden
Project type:PhD project