Project

Gezamenlijke Scheiding en Identificatie van Geluidsbronnen

Vele toepassingen in spraaktechnologie verwachten dat in het opgenomen audiosignaal slechts één spreker actief is en meestal zijn ze niet succesvol bij meerdere actieve sprekers, zeker indien de spraak overlappend is. Er zijn echter veel situaties waarbij meerdere personen in de buurt van een opnameapparaat staan en dan is er een hoge kans dat meerdere sprekers actief zijn. In spraakscheiding (afk. SS) worden de verschillende spraaksignalen gescheiden per spreker. Verder willen we ook graag de identiteit of de spraakkarakteristieken van de persoon kennen via sprekerherkenning (afk. SR) zodat de spreker later kan worden herkend. Indien zowel SS als SR worden toegepast, kan het spraaksignaal van een spreker doorheen een volledige opname, van bijvoorbeeld een meeting, worden gevolgd. SS en SR worden vaak als gescheiden problemen gezien. Wanneer echter een audiosignaal met meerdere sprekers blind (zonder voorkennis van de sprekers) moet worden gescheiden, is sprekerkarakterisatie inherent nodig. Anderzijds, wanneer sprekers herkend moeten worden in overlappende spraak, moet elke spreker met een deel van het audiofragment worden geassocieerd en dus is SS inherent nodig. De hoofdhypothese van het doctoraat is dat wanneer beide taken gezamenlijk worden opgelost, ze elkaar constructief helpen om een betere kwaliteit te bekomen. Een sequentiële aanpak waarbij eerst SS wordt gedaan en vervolgens SR is minder efficiënt aangezien elke stap onafhankelijk wordt geoptimaliseerd, zonder rekening te houden met de andere stap.

Hoofdstuk 2 en 4 van de thesistekst zullen een dergelijk gemeenschappelijk model zoeken en ze slagen er in om de sequentiële aanpakken te verbeteren. In hoofdstuk 2 wordt dit gedaan met Nonnegative Matrix Factorization (NMF), terwijl in hoofdstuk 4 Deep Neural Networks (DNNs) worden gebruikt. Dit toont aan dat verbetering van gemeenschappelijke modellen ten opzichte van sequentiële modellen, vermoedelijk niet afhankelijk is van het type model, maar eerder intrinsiek aan de twee taken. In hoofdstuk 3 en 6 zal niet expliciet naar een gemeenschappelijk model worden gezocht, maar zal worden aangetoond dat sprekerinformatie inherent aanwezig is voor blinde spraakscheiding. Ten slotte zullen hoofdstuk 4 en 7 meer praktische en toegepaste aspecten van SS beschouwen, maar zal ook hier de link tussen SS en SR worden gemaakt.

Datum:18 sep 2015 → 29 sep 2020

Trefwoorden:Machine Learning, Nonnegative Matrix Factorization, Deep Learning, Speech Processing, Source Separation, Speaker Recognition

Disciplines:Audio- en spraakverwerking, Patroonherkenning en neurale netwerken

Project type:PhD project

Project

Gezamenlijke Scheiding en Identificatie van Geluidsbronnen

Onderzoekers

Project partners

Financiering

Publicaties