Project

Het identificeren van redundante variabelen in een simultane componenten analyse.

In onze informatiemaatschappij, komt het in veel wetenschappsgebieden steeds vaker voor (1) dat er informatie over een grote hoeveelheid variabelen beschikbaar wordt, en (2) dat er voor eenzelfde reeks van entiteiten (bv. genen, personen en bedrijven) informatie beschikbaar is vanuit verschillende bronnen. In de bio-informatica bijvoorbeeld worden vaak, voor een aantal experimentele condities waarin een organisme geplaatst wordt, verschillende reeksen metabolieten gemeten, waarbij iedere reeks met een andere meetmethode (zoals bijvoorbeeld gas chromatografie of vloeistof chromatografie) bekomen is en iedere reeks een grote hoeveelheid metabolieten kan bevatten. Om de onderliggende mechanismen in dergelijke gegevens bloot te leggen, is een simultane analyse nodig van de informatie die in de verschillende bronnen aanwezig is. De familie van simultane componenten modellen vormt hiertoe een bruikbaar instrument, aangezien in deze modellen componenten vervat liggen die simultaan getrokken worden uit de informatie die in de verschillende bronnen aanwezig is. In het bio-informatica voorbeeld, zouden deze componenten de onderliggende processen kunnen vatten die verantwoordelijk zijn voor het biochemisch functioneren van het onderzochte organisme onder verschillende experimentele condities, zoals dit gemeten wordt door middel van metabolieten. Een probleem dat bij het analyseren van gegevens uit verschillende bronnen met een grote hoeveelheid aan variabelen vaak opdruikt, is dat heel wat variabelen redundante informatie bevatten. Dit is problematisch omdat het analyseren van dergelijke datasets vaak componenten oplevert dit moeilijk te interpreteren zijn, wat impliceert dat geen diepgaand inzicht kan verworven worden in de onderliggende mechanismen die door deze componenten gerepresenteerd worden. Bovendien, impliceren datasets met redundante variabelen een hoge meetkost, zowel financieel als qua tijd, naar vervolgonderzoek toe. Het doel van het voorliggende onderzoeksproject bestaat erin nieuwe methoden voor simultane componenten analyse te ontwikkelen die toelaten de mechanismen bloot te leggen, die achterliggend zijn aan gegevens uit verschillende bronnen, met behulp van een (beperkt) aantal componenten die zo spaarzaam mogelijk zijn (nl. waarop zo weinig mogelijk variabelen laden) en dus gemakkelijk te interpreteren zijn.

Datum:1 okt 2010 → 30 sep 2011

Trefwoorden:Data fusion, Variable selection, Simultaneous components, Component analysis, Multi-set data analysis

Disciplines:Toegepaste wiskunde, Statistische en numerieke methoden, Toegepaste psychologie

Project

Het identificeren van redundante variabelen in een simultane componenten analyse.

Onderzoekers

Project partners

Financiering