< Terug naar vorige pagina

Project

Optimaliseren van geavanceerde analytische taken over gedistribueerde data (R-9422)

In het tijdperk van big data worden bedrijven en wetenschappelijke instellingen geconfronteerd met gegevens die voorkomen in variëteiten en volumes die nog nooit eerder zijn aangetroffen. Tegelijkertijd bestaan ​​er nieuwe behoeften en verwachtingen over het inzicht en de intelligentie die kunnen worden afgeleid uit deze gegevenssets met behulp van voorspellende analyses via statistische en machine-learning modellen en algoritmen. Hoewel sampling een veelgebruikte, gebruikte techniek is om de kloof tussen grote datasets en diepe analyses te overbruggen via experttools, is er tegenwoordig, gedreven door goedkope opslag- en verwerkingscapaciteit, een enorme vraag om de volledige dataset te gebruiken. In dit voorstel richten we ons op de ondersteuning van geavanceerde big data-analyse door een nieuwe generatie gedistribueerde query-engines. Hier wordt de term big data-analyse gebruikt als een overkoepelende term voor complexe taken die traditionele querybewerkingen combineren, zoals tabel joins en bewerkingen uit lineaire algebra, zoals matrixvermenigvuldiging. In het bijzonder proberen we big data-analyses te ondersteunen vanuit een databaseperspectief, waarbij een gedistribueerde query-engine een solide ondersteunende omgeving biedt voor effectieve berekening en optimalisatie van typische geavanceerde analytische taken. Het algemene doel van dit project is bij te dragen tot een beter fundamenteel begrip van hoe complexe data-analytische workflows kunnen worden uitgevoerd in een big data-setting, waarbij distributie en parallellisatie centraal staan.
Datum:1 jan 2019 →  31 dec 2022
Trefwoorden:big data, data science, gedistribueerde evaluatie van queries
Disciplines:Computertheorie niet elders geclassificeerd, Andere computer ingenieurswetenschappen, informatietechnologie en mathematische ingenieurswetenschappen niet elders geclassificeerd