< Terug naar vorige pagina

Project

Diep leren voor geluidsbronlokalisatie en spraakemotieherkenning: Een perspectief op representatieleren en sequentiemodellering

Spraak bevat een grote hoeveelheid nuttige informatie; het vormt niet alleen een van de belangrijkste mechanismen voor communicatie tussen mensen, maar het levert ook een van de onmisbare modaliteiten in de mens-computerinteractie. Om het mogelijk te maken nuttige informatie uit spraak te verwerken en extraheren, zetten computationele spraakverwerkingssystemen spraakgeluidsgolven om in eendimensionale discrete-tijdreeksen, d.i. de digitale spraakopname. De kwaliteit van deze spraakopnamen wordt echter aangetast door verschillende ongewenste artefacten, zoals nagalm, achtergrondruis, vervormingen ten gevolge van de niet-lineaire respons en de beperkte numerieke precisie van het opnameapparaat, enz. Daarom moet een effectief systeem voor het analyseren van spraakinformatie niet alleen de relevante temporele inhoud in de spraakopname identificeren maar tegelijk ook de interferentie van artefacten en irrelevante componenten beperken.

Hedendaagse diepe-neurale-netwerk-gebaseerde data-gedreven modellen hebben de menselijke gemiddelde prestatie in een verscheidenheid van perceptuele taken overtroffen, en bieden krachtige en toepasbare hulpmiddelen voor moderne spraak/audio-verwerking, waaronder het analyseren van spraakinformatie. In dit proefschrift stellen we voor om diepe neurale-netwerkmodellen te gebruiken om eerst kenmerken te bekomen die spraakrepresentaties op hoog niveau vastleggen en zodoende de intrinsieke structuur van de data kunnen weergeven, en vervolgens de temporele relaties tussen deze kenmerken te onderzoeken via een sequentiemodel. We passen dit modelleringsprincipe toe op twee spraak/audio processing gerelateerde taken, namelijk binaurale geluidsbronlokalisatie en spraakemotieherkenning.

Voor deze twee taken, binaurale lokalisatie van geluidsbronnen en herkenning van spraakemoties over meerdere talen en corpora, ontwerpen we specifieke modellen om representaties te leren die de intrinsieke structuur van de verzamelde data weerspiegelen die relevant is voor de beoogde taak. Voor de binaurale lokalisatie van geluidsbronnen stellen we een parametrische inbedding voor door een gelijksoortigheidsmetriek te definieëren in een latente ruimte met behulp van een diepe neuralenetwerkarchitectuur die gekend is als het “siamese” netwerk. Dit model kan worden geoptimaliseerd om punten die dicht bij elkaar liggen in de latente ruimte (de ruimte van azimut- en elevatiecoördinaten van de bron) af te beelden op nabijgelegen punten in de inbeddingsruimte, zodat de Euclidische afstanden tussen de inbeddingen de afstanden in de coördinatenruimte van de bron weerspiegelen. De structuur van de inbeddingen vormt bovendien een variëteit, die interpreteerbaarheid biedt aan de inbeddingen. We tonen aan dat de voorgestelde inbedding goed veralgemeenbaar is in verschillende akoestische omstandigheden (met nagalm) die verschillen van de omstandigheden tijdens de training, en betere prestaties levert dan niet gesuperviseerde inbeddingen die eerder zijn gebruikt voor binaurale geluidslokalisatie. We breiden deze inbedding ook uit om zowel gesuperviseerd leren als zwak gesuperviseerd leren te gebruiken, en tonen aan dat in beide omstandigheden de resulterende inbeddingen even goed presteren, terwijl de zwak gesuperviseerde inbedding het mogelijk maakt om de azimut- en elevatiecoördinaten van de bron tegelijkertijd te schatten.

In onze aanpak van de spraakemotieherkenningstaak willen we de prestatievermindering van het model in scenario’s met meerdere talen en corpora tegengaan, en stellen we een transfer-leermethode voor die gebruik maakt van een voorgetraind wav2vec 2.0 model. Dit model kan de tijdsdomein audiogolfvormen overbrengen naar een inbeddingsruimte die gedeeld wordt over verschillende talen (d.w.z. 53 verschillende talen), en het is getraind op een manier dat de contextuele informatie wordt behouden waardoor de invloed van de taalvariabiliteit wordt gemarginaliseerd. Vervolgens stellen we een Deep-Within Class Covariance Normalisation (Deep-WCCN) laag voor die kan worden ingevoegd in het artificiële-neurale-netwerkmodel om de gevoeligheid van het model aan andere variabiliteiten, zoals sprekervariabiliteit en kanaalvariabiliteit, verder te reduceren. Experimentele resultaten tonen aan dat de voorgestelde methode beter presteert dan de referentiemethode die gebaseerd is op gemeenschappelijke akoestische kenmerkverzamelingen voor spraak-emotieherkenning met een enkele taal, evenals het referentiemodel en de state-of-the-art-modellen voor de setting met meerdere talen. Bovendien valideren we experimenteel de effectiviteit van de Deep- WCCN, die de prestaties van het model verder kan verbeteren. Tenslotte tonen we aan dat de voorgestelde transferleermethode een goede data-efficieëntie vertoont bij het invoegen van data met de beoogte taal in het fine-tuningproces.

We behandelen ook het probleem om de temporele afhankelijkheden in lange spraak/audio-sequenties te modelleren (in het bijzonder voor end-to-end leren), en stellen een nieuw end-to-end diep neuraal-netwerkmodel voor spraakemotieherkenning voor. Dit model, gebaseerd op het concept van gedilateerde causale convolutie met context stacking, is paralleliseerbaar en heeft een receptief veld zo groot als de lengte van de inputsequentie, terwijl de computationele kost redelijk laag blijft. We evalueren het voorgestelde model in regressie- en classificatietaken voor spraakemotieherkenning, en tonen aan dat het de herkenningsprestaties verbetert t.o.v. het state-of-the-art end-to-end model. Bovendien bestuderen we ook de impact van het gebruik van verschillende inputrepresentaties zoals de ruwe audiobemonsteringen versus log mel-spectrogrammen en illustreren we de voordelen van een end-to-end aanpak ten opzichte van het gebruik van specifiek ontworpen audiokenmerken.

 

Datum:2 aug 2017 →  7 okt 2022
Trefwoorden:User-centered, Deep Learning, Emotion Detection, Mood Disorder Prediction
Disciplines:Toegepaste wiskunde, Modellering, Multimediaverwerking
Project type:PhD project