Project

Een computationeel raamwerk voor de rangschikking van ziekteveroorzakende mutaties

Naar schatting acht procent van de totale bevolking heeft een van zevenduizend geïdentificeerde genetische aandoeningen. De oorzaak van deze aandoeningen is vaak slecht gekend, wat ziektemanagement bemoeilijkt, en in sommige gevallen leidt tot verhoogde morbiditeit en mortaliteit. Tegelijkertijd is de ontdekking van biomarkers in een stroomversnelling gekomen, dank zij de ontwikkeling van hoge-doorvoer technologieën. Hiervan biedt de exoom sequencing technologie een veelbelovende manier om nieuwe genen te identificeren die erfelijke ziektes veroorzaken. Elk individueelgenoom bevat echter typisch duizenden mutaties, zodat het achterhalen van welke de oorzaak zijn van ziektes een uitdaging blijft, zelfs wanneerhet merendeel van de vermoedelijk neutrale variatie vooraf weggefilterdwerd. Verscheidene rekenkundige methodes werden voorgesteld om dit proces te ondersteunen, maar de meeste onder hen zijn onvoldoende</>
precies voor praktisch gebruik.</>
</>
We stellen een nieuwe methode voor voor de prioritering van enkel-nucleotide varianten die genetische aandoeningen veroorzaken, gebaseerd op genomische data fusie. Deze methode implementeert verschillende belangrijke vernieuwingen die leidentot een ongeveer tienvoudige verhoging van de prioriteringsperformantievergeleken met huidig gangbare methodes. Ten eerste vermengt deze methode conservatie, haploinsufficiëntie en verscheidene impact predictie scores, zodat het alle bestaande belangrijkste algoritmes vervangt. Ten tweede is het de eerste methode die fenotype-specifieke informatie ten volle benut. Ten derde is het rechtstreeks getraind om zeldzame ziekte-veroorzakende varianten te onderscheiden van zeldzame neutrale varianten, in plaats van </>vaak voorkomende polymorfismen te gebruiken als proxy. </>
</>Verder beschrijven we verschillende strategieën voor de aggregatie van predicties over meerdere fenotypes en verkennen we hoe deze de prioritering beïnvloeden in de aanwezigheid van verschillende ruisniveaus. Bovendien formuleren we een vereenvoudigde versie van het model omde interpreteerbaarheid van het beslissingsproces te verhogen, alsook de benodigde opslag en de rekenkundige vereisten te verlagen. Tenslotte identificeren we een bias veroorzaakt door de hiërarchische, granulaire aard van het gegevensdomein en ontwikkelen we een bemonsteringsgebaseerdemethode om deze te omzeilen, welke resulteert in een aanzienlijke bijkomende verhoging van de performantie van het systeem.</>

Datum:25 mei 2010 → 6 nov 2014

Trefwoorden:data mining

Disciplines:Controlesystemen, robotica en automatisatie, Ontwerptheorieën en -methoden, Mechatronica en robotica, Computertheorie, Modellering, Biologische systeemtechnologie, Signaalverwerking, Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen

Project type:PhD project

Project

Een computationeel raamwerk voor de rangschikking van ziekteveroorzakende mutaties

Onderzoekers

Project partners

Financiering