Project

Eénmicrofoonanalyse van ruimtelijk geluid

De ruimtelijke informatie in opgenomen microfoonsignalen speelt een fundamentele rol bij de karakterisering van akoestische omgevingen. Bovendien kan het worden benut in raamwerken voor digitale audioverwerking om een gewenst bronsignaal te verbeteren, wat toepassingen als handsfree telefonie, hoortoestellen, mens-machine-interfaces en akoestische monitoringsystemen ten goede komt. Ondanks de erkende relevantie ervan kan het nauwkeurig inschatten en effectief gebruiken van ruimtelijke informatie aanzienlijke uitdagingen met zich meebrengen, vanwege de uiteenlopende akoestische omstandigheden van praktische scenario's of beperkingen die worden opgelegd door microfoonopstellingen.

Dit proefschrift richt zich op de ontwikkeling en evaluatie van audioverwerkingsmethoden voor het schatten en toepassen van ruimtelijke informatie, terwijl een selectie van uitdagingen wordt aangepakt die men tegenkomt in verschillende toepassingen. De schatting van ruimtelijke informatie is in dit proefschrift beperkt tot het probleem van bronlokalisatie. Ten eerste worden twee benaderingen voor bronlokalisatie met één kanaal gepresenteerd, gemotiveerd door de beperkingen in de mogelijkheden voor ruimtelijke audioanalyse die worden opgelegd door opstellingen met één microfoon, of apparaten waarin gelijktijdige toegang tot meerdere microfoonsignalen onbetrouwbaar is. Beide benaderingen schatten de aankomstrichting (DOA) en de spectrale vermogensdichtheid (PSD) van stationaire puntbronnen met behulp van een enkele, roterende, richtmicrofoon. De oplossing voor een geregulariseerd optimalisatieprobleem met weinig groepen wordt gebruikt voor het schatten van richtingsafhankelijke PSD-waarden ten opzichte van een gegeven hoekwoordenboek, en voor het lokaliseren van pieken in de geschatte PSD-vector. De prestaties van de methoden worden geëvalueerd door middel van een reeks simulaties waarin verschillende opstellingsomstandigheden worden overwogen, variërend van verschillende soorten modelmismatch tot variaties in de akoestische scène en het richtingspatroon van de microfoon.

Voortbouwend op de inzichten die zijn verkregen door het evalueren van lokalisatiemethoden met één kanaal, wordt in dit proefschrift ook een methode voor bronlokalisatie met meerdere kanalen gepresenteerd. Deze methode schat de DOA van meerdere breedbandgeluidsbronnen via een soortgelijk groep-schaars optimalisatieprobleem, waarbij in plaats daarvan een waargenomen breedbandgestuurde responsvermogenskaart (SRP) wordt gemodelleerd als een lineaire combinatie van PSD's. Simulatieresultaten tonen aan dat de voorgestelde methode beter presteert dan conventionele methoden in bepaalde scenario's met meerdere bronnen en vergelijkbare prestaties behoudt als andere, terwijl ze rekentechnisch efficiënter is. Bovendien vertoont het superieure prestaties in gevallen met dicht bij elkaar gelegen bronnen.

Na het probleem van bronlokalisatie te hebben aangepakt, verlegt dit proefschrift de focus naar het benutten van ruimtelijke informatie voor signaalverbetering. Er wordt rekening gehouden met de specifieke taak van spraakverbetering met een microfoonarray ingebed in een onbemand luchtvaartuig (UAV), wat zeer ongunstige akoestische omstandigheden met zich meebrengt, met hoge niveaus van ego-ruis. Ten eerste wordt een experimentele methodologie gepresenteerd voor het meten van ego-geluidsemissies. Vervolgens wordt de haalbaarheid onderzocht van het gebruik van op ruimtelijke filtering gebaseerde methoden voor spraakverbetering in een dergelijk uitdagend scenario. Er wordt een spraakverbeteringsmethode gepresenteerd die gebruik maakt van ego-ruisreferenties, gebaseerd op het meerkanaals Wiener-filter (PK-MWF) en schattingen van de spraakaanwezigheidswaarschijnlijkheid (SPP). Bovendien wordt de ontwikkeling van de methode uitgebreid om expliciet geschatte DOA-informatie over de doelspreker op te nemen, wat een alternatieve implementatie oplevert. De voorgestelde benaderingen worden geëvalueerd aan de hand van experimentele opnames verkregen met een drone die met constante stuwkracht werkt, in een gesimuleerde zweeftoestand, en de resultaten geven het belang aan van betrouwbare schattingen van spraakactiviteit bij de uitvoering van op ruimtelijke filtering gebaseerde methoden zoals de PK-MWF. Er wordt aangetoond dat het gebruik van de DOA-gebaseerde implementatie van het PK-MWF-filter de signaal-ruisverhouding (SNR) van het gefilterde signaal aanzienlijk verbetert in vergelijking met het resultaat dat wordt verkregen bij gebruik van de PK-MWF met SPP geschat op basis van een van de de ingebouwde microfoons, terwijl de perceptuele verbetering in gevaar komt. Bovendien wordt aangetoond dat het combineren van zowel DOA als SPP-gebaseerde implementaties van PK-MWF de prestaties in termen van perceptuele spraakkwaliteit kan verbeteren.

Dit proefschrift presenteert ook een onderzoekvalorisatieplan, dat aangeeft hoe de onderzoeksresultaten kunnen worden overgedragen naar verschillende toepassingscontexten, terwijl ook de potentiële sociaal-economische waarde wordt geschetst die ze kunnen genereren in een industriële omgeving.

Datum:15 mrt 2019 → 23 feb 2024

Trefwoorden:signal processing, scanning radar, audio signal processing, audio engineering, audio analysis, spatial audio, directional microphones

Disciplines:Draadloze communicatie- en positioneringssystemen, Computervisie, Analoge en digitale signaalverwerking, Audio- en spraakverwerking

Project type:PhD project

Project

Eénmicrofoonanalyse van ruimtelijk geluid

Onderzoekers

Project partners

Financiering

Publicaties