< Terug naar vorige pagina

Project

Rank matrix factorisatie en zijn toepassingen

Gerangschikte data, waarin elke rij een complete of partiële ranking voorstelt van beschikbare items (kolommen), is alomtegenwoordig. Men kan er bijvoorbeeld preferenties van eindgebruikers, de verschillende niveau’s van genexpressie, of de resultaten van sportevenementen mee voorstellen. Desondanks het feit dat gerangschikte data reeds worden geanalyseerd in de bestaande data mining literatuur, is er tot op heden weinig aandacht voor pattern mining binnen de context van gerangschikte data. Deze thesis vult deze schaarste in. Ze bestudeert het zoeken naar patronen in gerangschikte data, met een nadruk op het zoeken naar een kleine verzameling patronen. Verder worden enkele toepassingen van deze technologie in data mining en bioinformatica onderzocht.

Vooreerst introduceren we een een algemeen raamwerk voor het identificeren van verschillende types van patronen in gerangschikte data, gebaseerd op matrix factorisatie. In plaats van terug te vallen op de traditionele lineaire algebra voor matrix factorisatie, beroepen we ons op semiring theorie. Dit resulteert in een meer elegante manier om rankings te aggregeren.
Vervolgens breiden we het framework uit met 2 instanties: Sparse RMF, en ranked tiling. We gebruiken Sparse RMF om een set van sparse rank vectors te identificeren die in staat zijn om gerangschikte matrices op een beknopte wijze samen te vatten. Daarnaast beschrijven we de voornaamste categorieën van rankings. We wenden ranked tiling aan voor de identificatie van een set van data regio’s met een hoge rang in een gerangschikte matrix. Deze regio’s zijn interessant gezien het feit dat ze lokale associaties tussen subsets van rijen en kolommen van de gegeven matrices kunnen weergeven. Tot slot introduceren we het gebruik van ranked tiling om driver pathways te definiëren. Dit zijn de moleculaire mechanismen
onderliggend aan tumorigenesis. Gegeven de ontdekte driver pathways, zijn we in staat om verschillende kanker subtypes aan te duiden. Een kanker subtype is een verzameling van tumor stalen gekenmerkt door een unieke combinatie van driver pathways.

Datum:1 okt 2011 →  11 jan 2017
Trefwoorden:rank matrix factorisation, Contraint Programming, pattern set mining, ranked tiling, Sparse RMF, cancer subtype, data mining
Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen
Project type:PhD project