Titel Promotor Affiliaties "Korte inhoud" "Ontrafeling van verborgen overervingspatronen in high throughput genomische data met behulp van geavanceerde data mining technieken." "Frank Kooy" "Medische Genetica (MEDGEN), ADReM Data Lab (ADReM), Cognitieve Genetica (COGNET)" "Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel." "Karakterisatie van verborgen overervingspatronen in high throughput genomische data met behulp van geavanceerde data mining technieken." "Geert Vandeweyer" "Cognitieve Genetica (COGNET)" "Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel." "Fundamenten van Pattern Set Mining voor Gestructureerde data." "Bart Goethals" "ADReM Data Lab (ADReM)" "In dit project stellen we voor algemene technieken te ontwikkelen en te bestuderen voor het direct zoeken naar verzamelingen van patronen. Zulke verzamelingen moeten alleen hogekwaliteitspatronen bevatten die van belang zijn voor de gebruiker en de toepassing. Door pattern set mining technieken te ontwikkelen hopen we deze technieken van het lokale naar het globale niveau te brengen, wat bijdraagt aan een beter begrip van de rol van pattern mining techieken in datamining en machine learning." "Efficiënte mining naar onverwachte patronen in complexe biologische data." "ADReM Data Lab (ADReM)" "De afgelopen jaren werden de life sciences steeds meer overspoeld en gedreven door grote hoeveelheden complexe gegevens. Dankzij baanbrekende nieuwe technologieën neemt de snelheid waarmee biomoleculen (zoals DNA, metabolieten of eiwitten) van een levend systeem worden geanalyseerd al een aantal jaren sneller toe dan de capaciteit van computer processoren en harde schijven. Deze trend betekent dat ""traditionele technieken"" om biomoleculaire gegevens te analyseren en interpreteren steeds minder geschikt worden in dit huidige tijdperk. Het extraheren van relevante kennis uit deze gegevens is nu grotendeels gebaseerd op een reeks van speciale 'big data' technieken, die vallen onder de termen ""data mining"" en ""machine learning"". Dit project richt zich op ""pattern mining"", een specifiek type technieken dat zeer relevant is voor life science. ""Pattern mining"" staat voor het ontdekken van nooit eerder gekende, interessante patronen in complexe data. Frequent pattern mining staat voor het vinden van de meest voorkomende sets van items in een dataset. Er zijn echter belangrijke problemen met dergelijk resultaten, die we zullen aanpakken in dit project. Ten eerste zijn die patroon lijsten vaak enorm lang, en geen domein expert is meestal in staat om elk patroon in zo'n lijst te onderzoeken laat staan te interpreteren. Bovendien zijn vele van de patronen in dergelijke lijst niet interessant voor de domein-expert of zelfs triviaal. In dit project ontwikkelen we een generiek formeel en statistisch raamwerk om patroon interestingness opnieuw te definiëren aan de hand van de specifieke life science context. Na het definiëren van nieuwe patroon interestingness criteria, zullen we efficiënte algoritmen ontwikkelen om dergelijke patronen te minen uit complexe data. De algoritmes zullen worden gevalideerd op toy datasets en gouden standaard data. Tenslotte zullen we deze methoden gebruiken om nieuwe kennis te extraheren uit grootschalige microbiële genexpressie compendia, een enorme set van menselijke genoomsequenties en drug-doelwit interactienetwerken, met de bedoeling fundamenteel nieuwe biologische of biomedische inzichten te genereren." "Business Process Mining verbeteren met IoT context data" "Estefanía Serral Asensio" "Onderzoekseenheid Kwantitatieve Beleidsmethoden en Beleidsinformatica, Campus Brussel, Onderzoeksgroep Beleidsinformatica (LIRIS) (hoofdwerkadres Brussel), Onderzoeksgroep Beleidsinformatica (LIRIS) (hoofdwerkadres Leuven)" "Process Mining (PM) technieken kunnen gebruikt worden om de process flows van Business Processes (BPs) vanuit event logs automatisch te ontdekken. Rekening houden met de context van het proces zou kunnen zorgen voor nauwkeurigere proces modellen en duidelijkere toelichtingen van het procesgedrag en de problemen die zich in het proces kunnen vormen. Hoewel er een goed aantal data over de context van BPs kan door IoT toestellen verzamelt worden, integreren bestaande technieken zelden IoT context data. Dit onderzoek focust zich op de ontwikkeling van nieuwe PM technieken die kunnen real-time data door IoT toestellen en sensors verzamelt samen met gebruikelijk BP event data beschouwen. We noemen deze technieken IoT-enhanced Process Mining techniques. Concreet onderzoekt dit project: 1) Op welke manier kunnen IoT context data en BP event logs gecombineerd worden, 2) Op welke manier kunnen gecontextualiseerde procesmodellen ontdekt worden, en 3) Op welke manier deze procesmodellen het best worden gevisualiseerd om hen te verbeteren." "MODAP: Mobility, Data Mining and Privacy" "Databases en Theoretische Informatica" "Met de opkomst en de grotere verspreiding van toestellen die met GPS (of andere systemen die toelaten de locatie te bepalen) zijn uitgerust, kan het mobiliteitsgedrag van individuele personen geregistreerd en opgeslaan worden in een datawarehouse voor online- of historische analyse. We noemen zulke gegevens ""mobility data"". Het minen van mobility data is een onderzoeksgebied dat erop gericht is kennis te ontdekken in deze gegevens. Dit gebied, dat de laatste jaren opgang gemaakt heeft, levert zowel veel nuttige toepassingen als risico's. De risico's komen voort uit het feit dat mobility data vooral over mensen handelt: waar ze geweest zijn, wanneer, hoe dikwijls, en met wie. Daarom is privacy een grote bezorgdheid die in rekening gebracht moet worden vooraleer nuttige kennis uit mobility data geoogst kan worden. Het MODAP project is erop gericht een interdisciplinair onderzoeksgebied te stimuleren dat een aantal disciplines zoals data mining, geografie, visualisatie en kennisrepresentatie combineert. Het project wil deze disciplines op het gebied van mobiliteit samenbrengen, rekening houdend met privacy, wat het sociale aspect van dit project is. De hoge impact van MODAP komt voornamelijk voort uit twee gerelateerde facetten, namelijk het mobiliteitsgedrag van mensen en de daarmee verbonden privacy-implicaties. Privacy wordt vaak geassocieerd met de negatieve impact van technologie. Het volstaat te denken aan de recente schandalen, zoals het vrijgeven van gegevens door AOL in de US, die veel media-aandacht kregen. MODAP stelt zich tot doel deze negatieve impact in een positieve om te buigen door aan te tonen dat privacy-technologie geïntegreerd kan worden in mobility data mining, wat een grote uitdaging is. Het doel van MODAP op zich is tevens risicovol vermits niemand juist weet welke soorten privacygevaren bestaan wat betreft mobility data en hoe dit type data met gegevens uit andere bronnen gelinked kan worden." "HICSS-57: Process mining op basis van Electronic Health Records data - quo vadis? Reflecties op basis van het observeren van de activiteiten en het dataregistratiegedrag van verpleegkundigen" "Niels MARTIN" Beleidsinformatica "Process mining maakt gebruik van uitvoeringsdata van processen om de operationele processen beter te begrijpen en te verbeteren. In ziekenhuizen worden gegevens uit het Electronic Health Records (EHR) systeem, dat de dagelijkse werkzaamheden ondersteunt, vaak gebruikt als inputdata voor process mining. Vermits de beperkingen van EHR-gegevens inzake datakwaliteit ook in de literatuur naar voren zijn gekomen, blijft het een open vraag hoe goed EHR-gegevens weerspiegelen hoe het werk daadwerkelijk wordt uitgevoerd in een zorgproces. In dit kader rapporteert deze paper over de resultaten van een observatiestudie in een Belgisch ziekenhuis. In het bijzonder werden de activiteiten die verpleegkundigen uitvoeren geobserveerd, evenals hun dataregistratiegedrag. Uit de bevindingen volgt dat EHR-gegevens een zeer gefragmenteerd en onnauwkeurig beeld geven van hoe verpleegkundig werk wordt gedaan. Dit vormt een basis voor reflectie over de mate waarin EHR-gegevens een waarheidsgetrouwe basis vormen voor process mining." "Formalisering van Subjectieve Interesses in Exploratory Data Mining" "Tijl De Bie" "Vakgroep Elektronica en Informatiesystemen, University of Bristol" "De snelheid waarmee onderzoekslaboratoria, bedrijven en overheden gegevens verzamelen, is hoog en neemt snel toe. Vaak worden deze gegevens zonder specifiek doel verzameld of blijken ze nuttig te zijn voor onverwachte doelen: bedrijven zoeken voortdurend naar nieuwe manieren om hun klantendatabanken te gelde te maken; Overheden ontginnen verschillende databases om belastingfraude op te sporen; Beveiligingsinstanties ontmijnen en associëren talloze heterogene informatiestromen uit openbaar toegankelijke en geclassificeerde databases om beveiligingsbedreigingen te begrijpen en te detecteren. Het doel van dergelijke Exploratory Data Mining (EDM) -taken is meestal slecht gedefinieerd, d.w.z. het is onduidelijk hoe te formaliseren hoe interessant een uit de gegevens geëxtraheerd patroon is. Dientengevolge is EDM vaak een langzaam proces van vallen en opstaan. Tijdens deze fellowship proberen we de wiskundige principes te ontwikkelen van wat een patroon interessant maakt in een zeer subjectieve betekenis. Cruciaal in dit streven is onderzoek naar automatische mechanismen om de eerdere overtuigingen en verwachtingen van de gebruiker voor wie de EDM-patronen zijn bedoeld, te modelleren en naar behoren te overwegen, waardoor de gebruikers van de complexe taak worden ontlast om te proberen zichzelf te formaliseren wat een patroon interessant maakt voor hen. Dit project zal een radicale verandering betekenen in de manier waarop EDM-onderzoek wordt gedaan. Op dit moment stellen onderzoekers zich typisch een specifiek doel voor van de patronen, proberen om de interessantheid van dergelijke patronen te formaliseren met dat doel, en ontwerpen ze een algoritme om ze te ontginnen. Vanwege de verscheidenheid aan gebruikers heeft deze strategie echter geleid tot een veelvoud aan algoritmen. Als gevolg hiervan moeten gebruikers dataminingexperts zijn om te begrijpen welk algoritme op hun situatie van toepassing is. Om dit op te lossen, zullen we een theoretisch solide raamwerk ontwikkelen voor het ontwerpen van EDM-systemen die de overtuigingen en verwachtingen van de gebruiker net zo goed modelleren als de gegevens zelf, om de hoeveelheid bruikbare informatie die aan de gebruiker wordt doorgegeven te maximaliseren. Dit zal uiteindelijk de kracht van EDM binnen het bereik van de niet-expert brengen." "Data mining voor privacy in sociale netwerken." "Bettina Berendt" "Afdeling Informatica, Afdeling ESAT - COSIC, Computerbeveiliging en Industriële Cryptografie" "Online sociale netwerken en het uitwisselen van informatie zijn een onderdeel geworden van het dagelijkse leven, wat resulteert in een groot aantal mensen die de meest intieme details van hun privéleven delen op social networking sites zoals Facebook, Netlog of Twitter. Hoewel het onderzoek over Social Network Analysis en privacy aangzienlijk gegroeid is in de afgelopen jaren, blijven veel fundamentele computationele vragen onbeantwoord. Specifiek: sociale netwerken worden over het algemeen gemodelleerd als grafen waarvan de knopen personen voorstellen en de zijden ""vriendschapsrelaties"" vertegenwoordigen. Privacy wordt verondersteld te worden gerespecteerd wanneer bepaalde informatie niet toegankelijk is of indien die kan worden overgedragen tussen knopen zonder verder onthuld te worden. Dit eenvoudige model voldoet echter niet, zowel conceptueel als algoritmisch, aangezien het geen gebruik maakt van de onderlinge afhankelijkheden tussen individuen als een kernelement van het Social Web, en geen rekening houdt met informatie van derden. Dit project beoogt deze lacune te vullen. We bestuderen: (1) privacy design types, (2) lokaal-globaal dynamiek, (3) intelligent micro-identity management en (4) privacy voor groepen. We zullen nieuwe technieken ontwikkelen voor (i) verkeersanalyse om sociaalnetwerkgebaseerde interacties en gebruikersgedrag te analyseren; (ii) metrieken om lekken van privé-informatie te meten; en (iii) pattern mining om realistische resultaten te identificeren op basis van simulatiemodellen gevalideerd in het toepassingsgebied van web-gebaseerde sociale netwerken." "iCANDID: Interdisciplinaire en Cross-Culturele Discoursanalyse Vervolledigd met Data Mining Tools" "Leen d'Haenens" "Instituut voor Mediastudies (OE), Onderzoeksgroep Kwantitatieve Lexicologie en Variatielinguïstiek (QLVL), Leuven, School voor Massacommunicatieresearch (OE), Centrum voor Politicologie (OE), Instituut voor de Rechten van de Mens" "Door de digitalisering zijn informatiestromen in onze samenleving fundamenteel veranderd. De inhoud gaat niet alleen sneller dan ooit tevoren, maar komt op ons af in steeds grotere volumes en via diverse platforms. In een gedigitaliseerde wereld kunnen onderzoekers niet zonder volledige en accurate datasets. iCANDID, onze voorgestelde infrastructuur, biedt innovatieve en geïntegreerde toegang tot diverse soorten tekst- en audiovisueel materiaal uit vrij toegankelijke online bronnen (vb. sociale media) en belangrijke nieuwsdatabanken (vb. LexisNexis, GoPress enENA). iCANDID zal het mogelijk maken om relevante teksten en fragmenten efficiënt te zoeken in grote hoeveelheden ongestructureerde data. Door de omvang van de dataanalyses zal de nieuwe infrastructuur de kwaliteit van de analyses verbeteren, waardoor longitudinale, cross-media en landenvergelijkende studies mogelijk worden. In plaats van kleine, afzonderlijke analyses te combineren, zal iCANDID helpen om eerder verborgen betekenisvolle verbindingen te ontdekken. iCANDID beschikt over superieure exportfuncties, zodat bestaande analytische tools voor kwantitatieve en kwalitatieve tekstuele analyse alsook software-tools voor geautomatiseerde visuele analyse toegankelijk worden voor elke onderzoeker die werkt met grote datasets van maatschappelijk significante waarde. Nadat relevante datasets uit primaire gegevens zijn geëxtraheerd, kunnen ‘big data’ analyses en sociale netwerkanalyses worden uitgevoerd. "