< Terug naar vorige pagina

Project

Het automatiseren van datatransformaties

Door gegevens te analyseren en te interpreteren kunnen bedrijven nieuwe inzichten verkrijgen en hun productiviteit verhogen. Bestaande tools voor data analyse laten gebruikers toe om complexe taken uit te voeren, zoals clustering, predictieve modellering en prognoses, zonder code te schrijven, door automatisch geschikte algoritmen voor elke taak te selecteren en te configureren. Deze tools gaan er echter van uit dat de gegevens juist gestructureerd zijn, vaak in de vorm van een tabel. Deze aanname wordt in de praktijk vaak geschonden, omdat veel gegevens worden opgeslagen in semi-gestructureerde indelingen, zoals spreadsheets. Het is daarom tijdrovend om deze gegevens in de gescjuistikte vorm te krijgen, zelfs voor ervaren datawetenschappers die tot 80% van de tijd bestedem aan gegevensvoorbereidingstaken zoals het herstructureren van data en het formatteren van waarden. Bestaande tools om dit proces te vereenvoudigengaan er echter van uit dat gebruikers al precies weten hoe de uiteindelijke gegevens eruit moeten zien, zowel voor wat betreft lay-out als opmaak. De drempel voor niet-experts blijft dus hoog. Als onderdeel van het ERC Advanced Grant SYNTH-project heeft ons team al aangetoond dat voorspellende benaderingen veelbelovend zijn voor het suggereren van effectieve lay-outs en formaten voor respectievelijk tabellen en waarden. Het doel van dit project is om die onderzoeksprototypes uit te breiden met de functionaliteit die nodig is voor de praktijk. Daartoe zullen we een aantal realistische use-cases verzamelen en een minimaal levensvatbaar product uitbouwen en streven naar een spin-off op basis van deze technologie. Met onze oplossing willen we dus de kloof dichten tussen toegang hebben tot gegevens en snel waarde kunnen genereren uit deze gegevens, door gebruikers in staat te stellen zich te concentreren op de inhoud, in plaats van op de structuur en het formaat.
Datum:1 jan 2022 →  31 dec 2023
Trefwoorden:artificial intelligence, machine learning, data wrangling
Disciplines:Datamining