Titel Promotor Affiliaties "Korte inhoud" "Robuuste spraakverbetering met ad-hoc gedistribueerde microfoonroosters door integratie van audio- en spraak-specifieke signaalmodellen in ""deep-learning"" algoritmes" "Nilesh Madhu" "Vakgroep Elektronica en Informatiesystemen" "Met de aankomst van de Internet-of-Things-wereld, zijn consumentenapparaten uitgerust met meerdere microfoons en het komt steeds vaker voor dat gebruikers met hun apparaten praten, in plaats van commando's op een toetsenbord in te voeren Om een machine in staat te stellen de onderliggende betekenis in de spraak nauwkeurig te kunne interpreteren, moeten we eerst een hoogwaardige signaal capteren Echter, signalen gecapteerd door de geïntegreerde microfoons zijn vaak beschadigd door sensor degradatie, storende audiobronnen op de achtergrond, nagalm, enz Het doel van dit onderzoek is om een geschikte manier te vinden waarbij signalen, die opgenomen zijn door de verschillende, gedistribueerde apparaten, kunnen gecombineerd worden om op een gewenste spraaksignaal te focusseren en de interferentie te onderdrukken Hierbij zijn de locaties van de microfoons in de kamer onbekend en constant kan veranderen We stellen een combinatie voor van klassieke statistische signaalmodellen en diepe neurale netwerken (DNNs) om dit probleem op te lossen Op basis van kenmerken die met de klassieke methode uit de audiosignalen zijn geëxtraheerd, kunnen we een eerste schatting van de gewenste spraak afleiden Deze initiële schatting wordt ingevoerd in een DNN, die een aanzienlijk verbeterd signaal verschafft Door het iteratieve uitvoeren van het process kan, aan het einde, een hoogwaardige spraaksignaal verkrijgt werden" "Ontwerp van een gedistribueerd microfoonrooster voor 3D gepositioneerde opname" "Dick Botteldooren" "Vakgroep Informatietechnologie" "Het doel van het project is een gedistribueerd opnamesysteem te ontwikkelen op basis van speciaal ontworpen microfoonroosters, dat toelaat een enkele geluidsbron vanop afstand op te nemen terwijl de invloed van andere stoorbronnen geminimaliseerd wordt met een kwaliteit die niet perceptief te onderscheiden is van de kwaliteit van een nabije microfoon opname. Hierbij zal specifiek worden gekeken naar de implementatie van het systeem met de recentontwikkelde digitale MEMS microfoons." "Meerkanaals spraakverbetering: Een integratie van A priori en data-afhankelijke ruimtelijke informatie" "Marc Moonen" "Afdeling ESAT - STADIUS, Stadius Centrum voor Dynamische Systemen,Signaalverwerking en Gegevensanalyse, Dynamische Systemen, Signaalverwerking en Gegevensanalyse (STADIUS)" "Een spraaksignaal dat door meerdere microfoons wordt opgevangen, is vaak onderhevig aan een verminderde verstaanbaarheid en kwaliteit vanwege de aanwezigheid van ruis en akoestische interferenties in de kamer. Meerkanaals spraakverbeteringssystemen richten zich daarom op het onderdrukken of verwijderen van dergelijke ongewenste signalen zonder het spraaksignaal aanzienlijk te vervormen. Een fundamenteel aspect van het ontwerp van verscheidene meerkanaals spraakverbeteringssystemen is de ruimtelijke informatie, dewelke ieder microfoonsignaal relateert aan de gewenste spraakbron. Deze ruimtelijke informatie is in de praktijk onbekend en moet op de een of andere manier worden geschat. Onder bepaalde omstandigheden kan de geschatte ruimtelijke informatie echter onnauwkeurig zijn, wat vervolgens de prestatie van een meerkanaals spraakverbeteringssysteem verslechtert.Dit proefschrift is gericht op de ontwikkeling en evaluatie van algoritmen voor akoestische signaalverwerking om dit probleem aan te pakken. In het bijzonder wordt, in tegenstelling tot conventionele methoden om ruimtelijke informatie te schatten met alleen a priori kennis of alleen waarneembare microfoondata, een geïntegreerde benadering nagestreefd waarbij zowel a priori als data-afhankelijke ruimtelijke informatie expliciet wordt gebruikt. In een eerste onderzoek naar dergelijke benadering wordt een microfoonrooster vanuit een op vertrouwen gebaseerd perspectief bekeken, waarbij een betrouwbaarheidsmetriek wordt gebruikt om a priori en data-afhankelijke ruimtelijke informatie optimaal te combineren. De rest van het proefschrift is dan gewijd aan de studie van een microfoonrooster die toegang heeft tot een of meerdere externe microfoons. In deze microfoonconfiguratie wordt gezocht naar een geometrisch gebaseerde integratie voor de taken van ruisonderdrukking, binaurale spraakverbetering en dereverberatie van spraak, waarbij a priori ruimtelijke informatie wordt gebruikt voor het microfoonrooster(s) en data-afhankelijke ruimtelijke informatie, geschat op basis van de waarneembare microfoondata, wordt gebruikt voor de externe microfoon(s). Een laatste conceptie van een geïntegreerde benadering wordt dan bekomen voor deze microfoonconfiguratie door een combinatie van deze op vertrouwen gebaseerde en geometrisch gebaseerde integratietechnieken.Het wiskundige raamwerk voor de geïntegreerde benadering toegepast op de verschillende microfoonconfiguraties wordt gepresenteerd, samen met experimentele evaluatie gebruik makend van opgenomen audiogegevens uit verschillende akoestische omgevingen. De resultaten hebben aangetoond dat door het volgen van een geïntegreerde benadering, meer ruimtelijk robuuste spraakverbeteringsalgoritmen kunnen worden ontworpen in plaats van alleen te vertrouwen op a priori ruimtelijke informatie of alleen gegevensafhankelijke ruimtelijke informatie. Bovendien werd het voordeel van het gebruik van a priori ruimtelijke kennis aangetoond, aangezien het diende om onvoorziene ruimtelijke informatie te verschaffen in gevallen waarin de data-afhankelijke ruimtelijke informatie onnauwkeurig werd geacht. Een aantal experimenten met een gehoorapparaat gekoppeld met externe microfoons, hebben ook aangetoond dat de voorgestelde spraakverbeteringsalgoritmen de spraakverstaanbaarheid kunnen verbeteren in vergelijking met het alleen gebruiken van het gehoorapparaat of alleen luisteren naar een extern microfoonsignaal."