< Terug naar vorige pagina

Project

Een probabilistische aanpak voor het verbeteren van gegevenskwaliteit

Het doel van dit project betreft het bestuderen en ontwikkelen van probabilistische technieken voor het opschonen van data. Het opschonen van data verwijst naar het proces waarbij fouten, kopieën en afwijkingen in data gedetecteerd en verwijderd of hersteld worden. In een reactie op de grote hoeveelheid data van twijfelachtige kwaliteit die gegenereerd wordt in onze moderne digitale maatschappij, geniet dit probleem veel interesse vanuit verschillende takken van de computerwetenschap.

Bijvoorbeeld, aangezien de meeste data bewaard wordt in databases, werden efficiënte database technieken ontwikkeld om de kwaliteit van data te verbeteren. Deze database technieken zijn overwegend niet-probabilistisch, in de zin dat data ofwel als 'vuil', ofwel als 'proper' bestempeld wordt. Twee objecten zijn ofwel hetzelfde, ofwel verschillend, en enige herstellingen zijn 'one-shot'. Dit betekent dat slechts één enkele opgeschoonde variant van de data aan de gebruiker wordt aangeboden, en dit zonder het verschaffen van enige extra informatie zoals (a) waarom deze herstelling geselecteerd werd; (b) hoe betrouwbaar deze herstelling is; en (c) welke andere herstellingen er bestaan van gelijkwaardige kwaliteit. Dergelijke informatie is ongetwijfeld van groot belang bij het bepalen van de kwaliteit van deze technieken. Er is nood aan een probabilistische aanpak van het datakwaliteitsprobleem die garanties biedt over de beslissingen die tijdens het opschoon-proces gemaakt worden. De hoeksteen van dit project is de observatie dat vele van de problemen die bestudeerd worden in de probabilistische logica een directe tegenhanger hebben in het onderzoek naar data-kwaliteit in databases, en vice-versa. In dit project wenden we deze relaties aan om een stevige basis te leggen voor data-kwaliteit in een probabilistische omgeving.

Datum:1 jan 2013 →  31 dec 2016
Trefwoorden:G.0062.13
Disciplines:Toegepaste wiskunde