Project
Ruis robuuste automatische spraakherkenning op basis van spectro-temporele technieken
Hoewel er veel onderzoek gedaan is naar het meer robuust maken van automatische spraakherkenning tegen achtergrondlawaai, zijn mensen nog steeds beter in het herkennen van ruizige spraak dan machines. Dit is de motivatie voor veel onderzoekers om manieren te zoeken om de robuustheid van automatische spraakherkenning te verbeteren gebaseerd op menselijke spraakverwerking. Een populaire manier om dit te doen is spectro-temporele verwerking. In spectro-temporele verwerking, dat geïnspireerd is door onderzoek van de receptieve velden van neuronen gespecialiseerd in het verwerken van geluidsprikkels, is het de bedoeling om de spectrale en temporele modulaties van het signaal gelijktijdig te verwerken. In deze studie onderzoeken we verschillende methodes gebaseerd op deze techniek.
Ten eerste hebben we twee fundamentele benaderingen van spectro-temporeel verwerken, namelijk het afleiden van 2D DCT-coëfficiënten en het gebruik van Gaborfilters, onderzocht. In onze experimenten met 2D DCT-coëfficiënten hebben we eerst geprobeerd om de optimale parameterwaardes voor het afleiden van spectro-temporele features te vinden. Na deze verkennende experimenten hebben we onze 2D DCT-features vergeleken met MFCC’s afgeleid van experimenten op het TIMIT spraakcorpus. We toonden aan dat door het gebruiken van 2D DCT-features we gelijkaardige of zelfs betere resultaten behalen dan voor MFCC’s. Bij het werken met Gaborfilters hebben we eerst verschillende methodes onderzocht om filters te selecteren. Daarna hebben we de kwaliteit van de filtersets die met die methode gevonden zijn vergeleken met de filtersets die beschreven worden in de literatuur over spraakherkenning. We kwamen tot de constatatie dat de filterset die we gecreëerd hebben op basis van simpele heuristieken de beste kwaliteit gaf, beter dan de andere filtersets en de MFCC’s, zowel voor spraak zonder als met achtergrondlawaai.
Vervolgens hebben we, omdat er verschillende obstakels waren bij het automatisch selecteren van features, een methode voor gezamenlijk trainen geïntroduceerd. Dit doen we door het afleiden van de features te integreren in de eerste laag van een neuraal netwerk: in feite wordt de stap van het afleiden van bijkomende features met de stap van het trainen van het neuraal netwerk gecombineerd. Die combinatie zorgde voor consistent lagere foneem-foutenpercentages in onze experimenten in vergelijking met de foutenpercentages die we bereikten wanneer de twee stappen apart werden uitgevoerd. Meer nog, wanneer we dit model van gezamenlijk trainen verder aanpasten op basis van de huidige vernieuwingen in onderzoek naar neurale netwerken, konden we de foutenpercentages nog meer doen dalen, wat aantoont dat het model nog vatbaar is voor verbetering. Deze experimenten hebben ook aangetoond dat het nuttig is om de initiële filtercoëfficiënten te trainen, en dat dat in de meeste gevallen tot een betere spraakherkenningskwaliteit leidt. Hoewel het voordelig is om de filters te trainen, hebben we ook aangetoond dat het bevorderlijk is om te beginnen met een goede initiële filterset.
Verder hebben we de combinatie van spectro-temporeel en multiband verwerken onderzocht, omdat deze twee benaderingen compatibel zijn. Eerst hebben we aangetoond dat deze combinatie inderdaad werkt op de TIMIT databank voor zowel spraak met achtergrondlawaai als zonder achtergrondlawaai. Vervolgens hebben we de foutenpercentages nog verder teruggebracht door diepe neurale netwerken en convoluties in dit model te introduceren. We hebben ook met succes de multiband methode geïncorporeerd in ons model dat gezamenlijk getraind wordt. Wanneer we die methode evalueren op de ruisloze trainingssetup van de Aurora-4 spraakherkenningstaak, bereikten we foutenpercentages die - op het moment dat ze gepubliceerd werden - bij de laagste waren die gepubliceerd waren voor die taak.
Tot slot, nadat we de parameters van het gezamenlijk training opnieuw onderzocht en aangepast hadden, hebben we onze techniek van gezamenlijk trainen aangevuld met een methode geïnspireerd door input-dropout en multiband verwerken. We hebben de input-dropout op zo’n manier toegepast dat in volledige batches hele frequentiebanden worden genegeerd. Met deze methode, die lijkt op multiband verwerken, hebben we geprobeerd om de robuustheid van het getrainde model te verbeteren door het netwerk te dwingen om minder te vertrouwen op het hele spectrum. We hebben deze methode geëvalueerd op de Aurora-4 databank, waarbij we zowel mel-spectrale features als ARMA-features gebruikten. Onze resultaten tonen aan dat voor de ruizloze trainingssetup, band-dropout de resultaten significant verbeterde in vergelijking met wanneer we geen dropout of standaard input-dropout gebruiken. Bovendien, wanneer we band-dropout in combinatie met ARMA-features gebruiken krijgen we resultaten die nog eens significant beter zijn. Die combinatie gaf een kwaliteitsscore die een van de beste is die gepubliceerd zijn voor deze taak.