Project

Gegevensefficiënte methoden voor natuurlijke taalverwerking: toepassingen in de gezondheidszorg

Natuurlijke taalverwerking is de studie van het verwerken van taalgegevens om menselijke taalgerelateerde taken uit te voeren. Met de opmars van machine learning-modellen, zoals diepe neurale netwerken, zijn natuurlijke taalverwerkingstechnologieën toegepast op veel gebruiksscenario's, waaronder documentclassificatie, sentimentanalyse en informatie-extractie. Diepe neurale netwerken voeren een doeltaak uit door te leren van gegevens zonder menselijke tussenkomst voor gevolgtrekking. Hun kracht gaat echter ten koste van grote, gelabelde trainingsgegevens die veel menselijke arbeid vergen.

In dit proefschrift onderzoeken en stellen we data-efficiënte algoritmen voor voor het trainen van op neurale netwerken gebaseerde natuurlijke taalverwerkingsmodellen voor toepassingen in de gezondheidszorg, waar data en labels schaars zijn. Onze vier belangrijkste bijdragen laten zien hoe data-efficiënte methoden die het nut van gelabelde en niet-gelabelde data maximaliseren en kennis exploiteren, kunnen worden gebruikt om op neurale netwerken gebaseerde natuurlijke taalverwerkingsmodellen te trainen in data- en label- schaarse omgevingen.

Ten eerste presenteren we een data-efficiënte methode die een data-augmentatietechniek en een semi-gesuperviseerde leerbenadering combineert in een omgeving met een kleine gelabelde dataset en een relatief grote ongelabelde dataset. De methode voor gegevensvergroting past tekstbewerkingsbewerkingen toe op invoerteksten en de methode voor semi-gesuperviseerd leren gebruikt de voorspellingen van een getraind model als pseudo-labels. We evalueren onze methode op een aangepaste dataset met klachten van gebruikers over hun slaap en analyseerden het effect van de voorgestelde methode.

Ten tweede richten we ons op actieve leermethoden, met name op pool-gebaseerd actief leren, dat is wanneer er een relatief grote hoeveelheid niet-gelabelde gegevens en een kleine hoeveelheid gelabelde gegevens aan het begin zijn, en het vaste aantal gegevenspunten iteratief worden gelabeld en toegevoegd aan de gelabelde set. We analyseren eerst de beperkingen van bestaande actieve leermethoden en stelden een label-efficiënte trainingsmethode voor die ze verzacht. De voorgestelde methode combineert de kracht van zelfgestuurd leren, gegevensvergroting en actief leren om zowel ongelabelde als gelabelde gegevens volledig te benutten. We evalueren onze methode op onze aangepaste dataset en een benchmark-dataset en stellen vast dat de voorgestelde methode beter presteert dan de bestaande state-of-the-art methoden.

Ten derde bestuderen we hoe rekenvaardigheden kunnen worden toegevoegd aan een taalmodel door synthetische gegevens te gebruiken voor een tijdelijke informatie-extractietaak. We stellen een op regels gebaseerde methode voor het genereren van synthetische gegevens voor die de omvang van de trainingsgegevens kan vergroten en een nieuwe multi-task modelarchitectuur die tijdelijke uitdrukkingen kan extraheren en normaliseren in standaardformaten. We evalueren onze methoden op een aangepaste dataset met slaapdagboeken met vrije tekst. We vinden dat multi-task leren met een hulptaak, die gerelateerd is aan de doeltaak, kan bijdragen aan de prestatieverbetering van het doel bij het gebruik van synthetische data voor training.

Ten slotte onderzoeken we de mogelijkheden om de data-efficiënte methoden toe te passen op een klinische NLP-toepassing en bespraken we het belangrijke probleem van vooringenomenheid. We bestuderen eerst de onderliggende bias in de openbare benchmarkdataset en analyseren het effect van bias op het gedrag van het model. We constateren dat het benchmark-getrainde model verschillend presteert tussen demografische groepen, omdat de benchmark-dataset onevenwichtig is. Vervolgens stellen we nieuwe benaderingen voor om dit probleem te verminderen. We evalueren onze methoden op basis van de klinische benchmarkgegevensset en laten zien dat de voorgestelde aanpak betere eerlijkheidsscores kan behalen in termen van gelijke prestaties in verschillende demografische groepen.

De belangrijkste conclusie van dit proefschrift is dat de voorgestelde data-efficiënte methoden het meest effectief zijn in omgevingen met weinig middelen, wanneer er een kleine gelabelde dataset is of er een gebrek is aan gelabelde data. De bijdragen in dit proefschrift zijn een startpunt voor toekomstig onderzoek naar de ontwikkeling van op diepe neurale netwerken gebaseerde natuurlijke taalverwerkingssystemen voor toepassingsdomeinen met weinig middelen, zoals een zorgdomein.

Datum:23 sep 2018 → 27 jan 2023

Trefwoorden:machine learning, deep learning, heterogeneous data processing, activity recognition

Disciplines:Sensoren, biosensoren en slimme sensoren, Andere elektrotechniek en elektronica

Project type:PhD project

Project

Gegevensefficiënte methoden voor natuurlijke taalverwerking: toepassingen in de gezondheidszorg

Onderzoekers

Project partners

Financiering

Publicaties