Project

Gegevensheterogeniteit in gefedereerde en privacybeschermende analyses

Gefedereerde analyse ('breng de berekening naar de gegevens') is een belangrijke opkomende trend in de analyse van gevoelige medische gegevens. Het implementeert - op het niveau van statistische en machine learning-modellen - de centrale gegevensminimalisatievereiste van de AVG door de uitwisseling van informatie tussen gegevensbeheerders (en een of meer aggregatiehubs) te beperken om statistische gegevens te aggregeren. Als verdere bescherming van de privacy van de patiënt of de vertrouwelijkheid van gegevens nodig is, kunnen dergelijke schema's worden omgezet in privacybeschermende algoritmen die statistische aggregatie combineren met privacybeschermende analysetechnieken (homomorfe codering en berekening door meerdere partijen). De verhoogde bescherming gaat ten koste van meer rekenkracht/latentie en verminderde flexibiliteit. Onze ontwikkeling van vroege proof-of-concepts in genetische associatiestudies, variantanalyse, voorspelling van farmaceutische doelwitactiviteit heeft een belangrijk knelpunt voor modellering geïdentificeerd: gegevensheterogeniteit. Zelfs wanneer een federatief of privacybeschermend model kan worden geïmplementeerd zonder prestatieverlies (d.w.z. het resulterende model is strikt gelijk aan het model dat wordt verkregen wanneer alle gegevens gecentraliseerd zijn), kan de resulterende prestatieverbetering soms teleurstellend zijn. Dit doet zich met name voor wanneer, hoewel hetzelfde type gegevens wordt verzameld door verschillende leden van het consortium, de werkelijke waarschijnlijkheidsverdeling van de gegevens een significante vertekening vertoont tussen bijdragende centra. Als de verwachte synergie van de grotere hoeveelheid gegevens die beschikbaar is voor modellering moet worden bereikt, moet het aangeleerde model worden aangepast aan de specifieke vooroordelen van elk bijdragend centrum. In dit doctoraatsonderzoek zullen bestaande en nieuwe machine learning-methoden om deze uitdaging aan te gaan, zoals transfer learning, domeinaanpassing en adversarial machine learning, worden onderzocht in combinatie met gefedereerde en privacybeschermende machine learning-schema's, in het bijzonder voor deep learning. De resulterende nieuwe algoritmen zullen worden gevalideerd op basis van de huidige use cases van het team voor de analyse van genetische gegevens, vloeibare biopsieën en voorspelling van farmaceutische activiteit.

Datum:8 mei 2023 → Heden

Trefwoorden:Fedrated Learning

Disciplines:Computerwetenschappen

Project type:PhD project

Project

Gegevensheterogeniteit in gefedereerde en privacybeschermende analyses

Onderzoekers

Project partners

Financiering