< Terug naar vorige pagina

Project

Efficiënte mining naar onverwachte patronen in complexe biologische data.

De afgelopen jaren werden de life sciences steeds meer overspoeld en gedreven door grote hoeveelheden complexe gegevens. Dankzij baanbrekende nieuwe technologieën neemt de snelheid waarmee biomoleculen (zoals DNA, metabolieten of eiwitten) van een levend systeem worden geanalyseerd al een aantal jaren sneller toe dan de capaciteit van computer processoren en harde schijven. Deze trend betekent dat "traditionele technieken" om biomoleculaire gegevens te analyseren en interpreteren steeds minder geschikt worden in dit huidige tijdperk. Het extraheren van relevante kennis uit deze gegevens is nu grotendeels gebaseerd op een reeks van speciale 'big data' technieken, die vallen onder de termen "data mining" en "machine learning". Dit project richt zich op "pattern mining", een specifiek type technieken dat zeer relevant is voor life science. "Pattern mining" staat voor het ontdekken van nooit eerder gekende, interessante patronen in complexe data. Frequent pattern mining staat voor het vinden van de meest voorkomende sets van items in een dataset. Er zijn echter belangrijke problemen met dergelijk resultaten, die we zullen aanpakken in dit project. Ten eerste zijn die patroon lijsten vaak enorm lang, en geen domein expert is meestal in staat om elk patroon in zo'n lijst te onderzoeken laat staan te interpreteren. Bovendien zijn vele van de patronen in dergelijke lijst niet interessant voor de domein-expert of zelfs triviaal. In dit project ontwikkelen we een generiek formeel en statistisch raamwerk om patroon interestingness opnieuw te definiëren aan de hand van de specifieke life science context. Na het definiëren van nieuwe patroon interestingness criteria, zullen we efficiënte algoritmen ontwikkelen om dergelijke patronen te minen uit complexe data. De algoritmes zullen worden gevalideerd op toy datasets en gouden standaard data. Tenslotte zullen we deze methoden gebruiken om nieuwe kennis te extraheren uit grootschalige microbiële genexpressie compendia, een enorme set van menselijke genoomsequenties en drug-doelwit interactienetwerken, met de bedoeling fundamenteel nieuwe biologische of biomedische inzichten te genereren.
Datum:1 okt 2016 →  30 sep 2020
Trefwoorden:SYSTEEMBIOLOGIE, PATROONMINING, BIO-INFORMATICA, DATA MINING
Disciplines:Scientific computing, Bio-informatica en computationele biologie, Maatschappelijke gezondheidszorg, Publieke medische diensten