Project

Een ontwikkeling kader voor data-analyse in genomics

Het doel van dit project is om een modulair hoge-performantie data-analyse infrastructuur op te richten gericht op humaan genetisch onderzoek en klinische genetische diagnostiek. Momenteel is de data gegenereerd door NGS methodes in een explosieve groeifase waarbij de gecreëerde informatie iedere 6 maand verdubbelt. NGS zal dus binnenkort de computationeel het meest intensieve tak van de wetenschap worden op zowel het gebied van data hoeveelheid en benodigde rekenkracht. Daarom is er een dringende noodzaak om nieuwe methodes en technology te ontwikkelen om deze data de baas te kunnen. De eerste uitdaging om ons doel te bereiken zal de keuze zijn van de juiste methodes. Het verzamelen opslaan en opvragen van grote hoeveelheden van data, afkomstig van verscheidene experimenten vraagt een grondige kennis van cluster en cloud based computer-systemen enerzijds, terwijl het parallellizeren van de computationele berekeningen een Hadoop/MapReduce aanpak vereist. Vanuit het gebruiker standpunt zullen we “Rich Client Platforms” nodigen hebben aangezien deze architectuur ook de flexibiliteit heeft om om te gaan met een groeiend aantal van verschillende applicaties die erin verwerkt moeten worden door gebruik te maken van plug-ins en extra modules. Hierdoor zullen de gebruikers van het systeem snel in staat zijn met de toepassingen verschillende problemen op te lossen die al dan niet aan elkaar gerelateerd zijn. De eigenschappen van een richt client kunnen dus als volgt geformuleerd worden: flexibel en modulaire toepassingsarchitectuur platform onafhankelijk aanpasbaar naar de wensen van de eindgebruiker Zowel offline als online bruikbaar Eenvoudige rapportering van data aan de eindgebruiker eenvoudige up to date houden van het richt client system. Aangezien het einddoel van deze thesis dus toelaat om NGS en aanverwante medische data met elkaar te integreren en beschikbaar te maken op verschillende plaatsen, is het ook van belang duidelijke afspraken te maken omtrekt de rol van de verschillende instituten die bijdragen en of gebruik zullen maken van deze infrastructuur alsook de bescherming van de privacy omtrent de data die erin verwerkt worden. We geloven dat met dit systeem onderzoeker hun kennis en ervaring zullen kunnen delen et elkaar om tot betere resultaten te komen. Aangezien ieder instituut al over een eigen computationele infrastructuur beschikt zal de grootste uitdaging erin bestaan een taal te kiezen om deze systemen aan elkaar te koppelen die resulteert in de laagste opstart kost en de minste aanpassingen.

Datum:3 okt 2011 → 3 feb 2017

Trefwoorden:Next generation sequensing

Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen, Laboratoriumgeneeskunde, Medische systeembiologie, Moleculaire en celbiologie, Controlesystemen, robotica en automatisatie, Ontwerptheorieën en -methoden, Mechatronica en robotica, Computertheorie

Project type:PhD project

Project

Een ontwikkeling kader voor data-analyse in genomics

Onderzoekers

Project partners

Financiering

Publicaties