< Terug naar vorige pagina

Project

Reinforcerment learning van de articulatorische bewegingen voor spraak, en hun bruikbaarheid voor spraakherkenning (FWOTM1047)

Moderne systemen voor automatische spraakherkenning kunnen nog
steeds niet tippen aan het menselijke vermogen voor
spraakherkenning, zelfs wanneer ze worden getraind met een
bovenmenselijke hoeveelheid aan spraakdata. Menselijke kinderen
leren feilloos spraak te herkennen op basis van een fractie van deze
hoeveelheid spraak. Mensen leren spraak niet alleen te herkennen,
maar leren het ook te produceren, en de motorische hersengebieden
voor spraakproductie zijn ook betrokken bij het waarnemen van
spraak. Voorgaand onderzoek heeft aangetoond dat het produceren
van spraak ook nuttig kan zijn als complementaire representatie bij
spraakherkenning. Het bestaande onderzoek op dit gebied is echter
gebaseerd op articulatorische metingen of fonetische
spraaksynthese. Mijn hypothese is dat als de articulatie van spraak
autonoom geleerd wordt m.b.v. artificiële intelligentie, via een
moderne deep Q-learning agent zonder voorgeprogrammeerde of
gemeten articulaties, de geleerde articulaties natuurlijker zullen zijn
en een meer robuuste spraakherkenning zullen toelaten dan
voorgaand onderzoek. In mijn senior postdoctoraal
onderzoeksmandaat, zal ik een lerende agent implementeren, wiens
doel het het is om de articulaties van echte, opgenomen menselijke
spraak te imiteren. De agent moet de auditieve representatie van
spraak leren die het mogelijk maakt om de gehoorde spraak te
herhalen. Deze representatie van spraak wordt verwacht robuust te
zijn en nuttig voor traditionele spraakherkenning.
Datum:1 okt 2021 →  Heden
Trefwoorden:Spraakverwerving, articulatorische modellering, spraakperceptie
Disciplines:Psycholinguïstiek en neurolinguïstiek, Taalverwerving, Machine learning en besluitvorming, Signaalverwerking niet elders geclassificeerd, Audio- en spraakverwerking