< Terug naar vorige pagina

Project

Ontwikkelen van dataminingmethoden voor de bio-informatica.

Dit projectvoorstel situeert zich op de doorsnede van bio-informatica en datamining. Meerbepaald willen we onze expertise in (relationele) datamining aanwenden om leermethoden te ontwikkelen die open vragen uit de bio-informatica aanpakken. Drie belangrijke onderzoeksvragen die we op dit moment geïdentificeerd hebben zijn het categoriseren van biomedische artikels, het voorspellen van de functie van groepen van orthologe genen, en het voorspellen van gen-expressieniveaus. Bij het eerste onderwerp willen we de performantie van ons beslissingsboom leeralgoritme voor hiërarchische multi-label classificatie (HMC) onderzoeken op tekstuele gegevens. Tekstclassificatie is namelijk een schoolvoorbeeld van HMC, en is een belangrijke taak binnen bio-informatica. Een positief resultaat zou betekenen dat ons algoritme een algemeen bruikbaar HMC systeem is. De andere onderzoeksvragen vloeien voort uit samenwerkingen met bio-informatica onderzoeksgroepen, die een concrete interesse hebben om onze (relationele) dataminingexpertise te gebruiken bij biologische problemen. Bij elk probleem zijn er uitdagingen vanuit datamining standpunt. Zo is er bij het voorspellen van de functie van orthologe genen, naast een hiërarchie in de doel-ruimte, ook een hiërarchie in de attribuut-ruimte. Bij het voorspellen van gen-expressieniveaus zijn de moeilijkheden dat er veel ontbrekende en onbetrouwbare gegevens zijn en dat de gegevens ongebalanceerd en niet onafhankelijk zijn.
Datum:1 okt 2009  →  30 sep 2013
Trefwoorden:Data mining, Bioinformatics, Machine learning, Functional genomics, Text classification
Disciplines:Scientific computing, Bio-informatica en computationele biologie, Maatschappelijke gezondheidszorg, Publieke medische diensten, Artificiële intelligentie, Cognitieve wetenschappen en intelligente systemen