Project

clusteren van tijdreeksen

Het begrip gelijkaardigheid wordt steeds belangrijker in data-analyse. Kwantificeren
hoe twee objecten van elkaar verschillen of op elkaar gelijken is van
fundamenteel belang in de meeste zelflerende algoritmes. Voor eenvoudige
mathematische structuren, kan gelijkaardigheid intuïtief duidelijk zijn (bij
twee gehele getallen volstaat het vaak om naar hun absolute verschil te kijken,
bijvoorbeeld). Voor complexere gegevenssoorten, wordt dit echter stelselmatig
moeilijker. In deze thesis spitsen we ons toe op gegevens die evolueren doorheen
de tijd, gekend als signalen of tijdreeksen.
De voorbije decennia kenden een fenomenale toename in het genereren van
tijdreeksen. Grotere gegevensopslagcapaciteit en technologische vooruitgang
leidden in industriële sectoren tot een grote toename van de hoeveelheid gemeten
data, waarbij, bijvoorbeeld, grote machinerie in fabrieken door middel van
sensoren allerhande continu in het oog gehouden wordt vanuit een controlekamer.
Windturbines slaan informatie over windsnelheid en electriciteitsproductie op,
net zoals interne data over bijvoorbeeld de temperatuur van verschillende
componenten.
Ook op het niveau van nationale of supranationale structuren, zoals het
elektriciteitsnet, wordt opslag, verwerking en verzending van informatie cruciaal
om de verschillende onderdelen te laten samenwerken. We zien dan ook de
ontwikkeling en uitrol van zaken als slimme meters, die elektriciteitsverbruik
van individuele huishoudens zeer gedetailleerd opmeten. In het transnationale
Europese energienetwerk worden gegevens over individuele electriciteitskabels
gebruikt om de internationale energieprijzen te bepalen. Zelfs op persoonsniveau
houden mensen vaak gedetailleerde gegevens doorheen de tijd bij, over hun
locatie, interacties en zelfs medische parameters (bloeddruk, hartslag, ...).
De voorbeelden hierboven (waarvan sommige verderop in de tekst nog zullen
terugkeren als illustraties en toepassingen van de theoretische ontwikkelingen in
dit werk) tonen het belang en de actuele relevantie van gelijkaardigheidsmaten voor tijdreeksen aan. Tegelijk is dit ook een uitdagend onderwerp: de keuzevan afstandsmaat hangt af van de specifieke toepassing en doelstellingen.
Traditionele vectorafstanden, die de vorm van twee tijdreeksen vergelijken,
en statistische maten, die de verdeling van datapunten in de signalen in
rekening brengen, kunnen soms zinvol zijn. Zelfs eenvoudige taken, echter, zoals
onderscheid maken tussen Gaussissche ruis en sinusgolven, kunnen onverwacht
moeilijk zijn, zoals we verderop zullen zien. Er blijft dus een groeiende nood
aan afstandsmaten die zich baseren op interessante, zinvolle en interpreteerbare
aspecten van de tijdreeksen.
In de ingenieurswetenschappen is dit niets nieuws. In velden als signaalverwerking
en regeltechniek worden signalen beschouwd als het eindproduct van een
onderliggend dynamisch systeem. Daarbij zijn we fundamenteel geïnteresseerd
in dit systeem, eerder dan in het signaal, dat slecht een ruizige observatie van
het onderliggende model is. De dynamica van deze onderliggende systemen
kan gemakkelijk geïnterpreteerd en onderling vergeleken worden, maar het
expliciet opstellen en schatten van wiskundige modellen en hun parameters is
een moeilijke en computationeel dure taak, waar veel expertise voor nodig is.
In dit werk onderzoeken we een afstandsmaat, de gewogen cepstrale afstandsmaat,
die we kunnen berekenen op basis van enkel de tijdreeksgegevens, maar
toch interpreteerbaar is volgens de onderliggende dynamica. Zo kunnen we dus
gelijkenissen tussen verschillende dynamische systemen kwantificeren, zonder
daarom expliciet wiskundige modellen te moeten opstellen en parameters te
schatten. In zijn originele formulering werden een aantal aannames gemaakt op
de toegelaten onderliggende dynamica van te vergelijken signalen. In deze thesis
lossen we enkele van deze aannames, en breiden het toepassingsgebied van deze
maat uit naar algemene lineaire, tijdsinvariante system met één (deterministische
of stochastische) ingang en één uitgang, en boeken vooruitgang in een uitbreiding
naar systemen met meerdere in- en uitgangen.
We werken verder een formeel kader voor tijdreeksclusteren uit, gebaseerdop deze uitbreidingen van de gewogen cepstrale afstand, en interpreteren
de resulterende clustercentra en -variantie in termen van de onderliggende
dynamica. Dit clusteralgoritme lost ook het probleem van tijdreeksdeelsequentieclusteranalyse
op, een gekende moeilijke uitdaging in tijdreeksonderzoek.
De theoretische ontwikkelingen in deze tekst worden veelvuldig getest door
middel van realistische toepassingen. De meest ambitieuze daarbij is een grotere
samenwerking met Électricité De France (EDF), een internationaal nutsbedrijf,
rond de internationale energiemarkten.
Zo expliciteren we de toepasbaarheid en industriële relevantie van de uitgewerkte
technieken. We leveren dus een betekenisvolle bijdrage aan zowel academisch
tijdreeksenonderzoek en industriële oplossingen voor reële problemen.

Datum:2 sep 2014 → 14 jan 2021

Trefwoorden:clusteren, tijdreeksen

Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen, Modellering, Biologische systeemtechnologie, Signaalverwerking, Controlesystemen, robotica en automatisatie, Ontwerptheorieën en -methoden, Mechatronica en robotica, Computertheorie

Project type:PhD project

Project

clusteren van tijdreeksen

Onderzoekers

Project partners

Financiering