< Terug naar vorige pagina

Project

Gepersonaliseerde machine learning-modellen bouwen in gezondheidsinformatica met beperkte datasets

Gezondheidszorgdiensten worden getransformeerd door technologische vooruitgang en de beschikbaarheid van gezondheidsgerelateerde gegevens, van monitoring van draagbare apparaten tot personalisatie van behandelingen. Machine learning (ML) heeft het potentieel om deze gegevens te benutten door patronen te identificeren en voorspellingsmodellen te ontwikkelen om belanghebbenden te helpen en uiteindelijk de gezondheidszorg te verbeteren. De toepassingen van machine learning in de gezondheidszorg zijn exponentieel gegroeid, van het ontdekken van medicijnen tot preventieve gezondheid. Met voldoende gegevens kunnen machine learning-modellen een ziekte nauwkeurig voorspellen of classificeren. ML-modellen kunnen leren van longitudinale gegevens die in de loop van de tijd zijn verzameld en vroeg genoeg voorspellingen doen om de implementatie van eventuele noodzakelijke interventies mogelijk te maken.

Gegevens in de gezondheidszorg zijn echter onderhevig aan bepaalde uitdagingen die de ML-modellering moeilijk maken. In dit proefschrift willen we enkele van de belangrijkste uitdagingen aanpakken, zoals (i) de beperkte beschikbaarheid van gegevens vanwege een klein gegevenscorpus of de noodzaak om gebeurtenissen van tevoren te voorspellen, (ii) personalisatie van ML-modellen die inspelen op een individueel niveau in tegenstelling tot een one-size-fits-all-benadering, (iii) het behoud van de privacy van een individu met behoud van een specifieke prestatie, en (iv) problemen die voortvloeien uit ontbrekende gegevens en hoe hiermee om te gaan.

Om de alomtegenwoordigheid van deze uitdagingen aan te tonen, wordt gekozen voor een verscheidenheid aan toepassingen in de gezondheidszorg. Deze toepassingen omvatten diverse scenario's voor gezondheidsmonitoring op individueel of institutioneel niveau. Het modelleren van gewichtstoename bij zwangere vrouwen tijdens hun zwangerschap om een gezonde zwangerschap en postpartum leven te garanderen, is een voorbeeld van preventieve gezondheidsmonitoring buiten het ziekenhuis. Verder wordt een toepassing uit een ziekenhuisomgeving onderzocht met als doel cognitieve achteruitgang bij Alzheimerpatiënten te voorspellen met behulp van een longitudinale dataset bestaande uit verschillende databronnen. Ook onderzoeken we de voorspelling van kindersterfte in een ontwikkelingsland vanuit het perspectief van populatiegezondheidszorg. Bovendien proberen we de pijn te modelleren die wordt ervaren door individuen die repetitieve taken op het werk in de loop van de tijd uitvoeren. De meeste van deze use-cases vereisen vroege voorspelling, zodat essentiële interventie op tijd kan worden uitgevoerd. Als gevolg hiervan is het absoluut noodzakelijk om machine learning-modellen te ontwikkelen die kunnen leren met slechts een paar metingen van een persoon.

Het onderzoek dat in dit proefschrift is ontwikkeld, heeft tot doel vier onderzoeksvragen te beantwoorden: (1) Kunnen we de gezondheidstoestand van een patiënt voorspellen met beperkte patiëntspecifieke tijdreeksgegevens, (2) Kunnen we kindersterfte detecteren met behulp van gestructureerde tabelgegevens met een zeer hoog percentage van ontbrekende gegevens, (3) kunnen we gepersonaliseerde machine learning-modellen maken die zich in de loop van de tijd kunnen aanpassen om nauwkeurige voorspellingen te genereren met weinig datapunten, en (4) kunnen we een ML-techniek maken die gevoelige onbewerkte gegevens beschermt zonder in te boeten aan prestaties? Deze brede onderzoeksvragen zijn verder onderverdeeld in individuele toepassingsgerichte deeldoelen. Om deze onderzoeksvragen en subdoelen te beantwoorden, hebben we een aantal technieken ontwikkeld die zowel N-dimensionale tijdreeksgegevens als tabelgegevens kunnen verwerken.

Ten eerste stellen we een eenvoudige methode voor om de beperkte beschikbaarheid van individuele gegevens te overwinnen, waarbij het onderliggende principe is om een niet-persoonsspecifiek ML-model te leren van alle beschikbare personen en dit vervolgens te personaliseren met de beschikbare gegevens van de doelgebruiker.

Ten tweede stellen we een complexere methode voor die hetzelfde principe volgt en een gelokaliseerde methode combineert voor het genereren van informatieve priors voordat een regressiemodel wordt geleerd. De gelokaliseerde methode selecteert personen uit de trainingsgegevens waarvan de gezondheidsgeschiedenis vergelijkbaar is met die van de persoon van belang. Dit wordt vervolgens gevolgd door een krachtige op Gaussiaanse processen gebaseerde methode om te leren van de geselecteerde subset.

Ten derde bieden we een privacy-behoudend leerparadigma op basis van de aggregatie van ML-modellen die zijn geleerd van de gegevens van een persoon. Deze strategie verschilt van de conventionele gecentraliseerde techniek waarbij onbewerkte gegevens worden verzameld en gedeeld met een centrale server. De bevindingen van dit onderzoek laten zien dat een goede afweging tussen privacy en prestaties haalbaar is.

Aan de hand van een casestudy bespreken we de huidige tekortkomingen in het omgaan met ontbrekende gegevens met kant-en-klare technieken. We demonstreren het belang van het identificeren van de mechanismen waardoor de gegevens kunnen worden gemist, evenals de inconsistenties die in het model kunnen kruipen als deze mechanismen niet goed worden bestudeerd tijdens de verkennende fase. De bevindingen van deze casestudy suggereren een techniek voor het detecteren van vooringenomen kenmerken, die, als ze niet zorgvuldig worden behandeld, het ML-model een vals gevoel van voorspellende kracht kunnen geven. Concluderend, de concepten die in dit proefschrift worden gepresenteerd, zijn relevant voor het aanpakken van problemen bij het modelleren van zorggerelateerde taken met behulp van machine learning.

Datum:22 jun 2018 →  13 jan 2023
Trefwoorden:Activity recognition, Health Estimation, Smart Living, Internet of Things, Machine Learning
Disciplines:Sensoren, biosensoren en slimme sensoren, Andere elektrotechniek en elektronica
Project type:PhD project