< Terug naar vorige pagina

Project

Het ontwerpen van anomaliedetectie algoritmes die flexibele supervisie uitbuiten

Anomalie detectie heeft tot doel om die observaties in een dataset te identificeren die niet overeenkomen met wat men zou verwachten. Het is een cruciale data mining taak gezien abnormale observaties veelal corresponderen met reële kosten. Bijvoorbeeld: een machine die kapot gaat, een fraduleuze kredietkaart transactie, of een patiént die een onregelmatig hartritme ervaart. De komst van big data heeft het onmogelijk gemaakt om manueel miljoenen observaties te inspecteren om de anomalieën eruit te halen. Dat is té kostelijk en té tijdsrovend. In plaats daarvan is het onze taak om computeralgoritmes te ontwerpen die deze taak voor ons oplossen.

De bestaande anomaliedetectie algoritmes werken veelal op een volledig data- gedreven manier. Concreet betekent dit dat ze proberen anomalieën te detecteren enkel op basis van de ruwe data. Dit vereist dat men vooraf specifieke assumpties maakt over hoe abnormaal gedrag er zou kunnen uitzien, zoals “anomalieën zijn infrequent of zijn substantieel verschillend van de standaard, normale observaties.” In de praktijk is het echter zo dat anomalieën niet altijd voldoen aan deze assumpties. Soms komt bepaald normaal gedrag minder frequent voor dan abnormaal gedrag. Een praktisch voorbeeld hiervan zijn sporadische onderhoudsoperaties. Deze discrepantie tussen de assumpties en de praktijk resulteert in een mismatch tussen wat het detectie algoritme denkt dat de anomalieën zijn en wat daadwerkelijk abnormaal is. Hoe kunnen we nu algortimes ontwikkelen die erin slagen om zulke tekortkomingen te omzeilen?

De centrale hypothese van dit proefschrift is dat anomaliedetectie algoritmes substantieel gebaat zijn bij het exploiteren van flexibele expert supervisie. Flexibele supervisie verwijst naar al de mogelijke vormen van domeinkennis waarover een expert beschikt voor een welbepaalde applicatie. Door deze kennis op een bepaalde manier te integreren in de detectiealgoritmes, kunnen we hun performantie verbeteren. De expert kan bijvoorbeeld aangeven dat onderhoudsoperaties normaal zijn zodat het algoritme deze ook zo classificeert. Op dit moment bestaat er slechts een handvol algoritmes dat enkel binaire labelinformatie verkregen van de expert (een observatie is normaal of abnormaal) kan verwerken. Flexibele supervisie gaat echter een pak verder dan dit standaard binair label formaat.

Dit proefschrift maakt drie wetenschappelijke contributies die elk relateren tot het exploiteren van flexibele expert supervisie in anomaliedetectie algoritmes. De eerste contributie is een anomaliedetectie algoritme dat de kennis die de expert heeft over sporadisch voorkomende patronen in de data, zoals onderhoudsoperaties, exploiteert. Wanneer men verwacht een dergelijk patroon te zien in de data, maar het verschijnt niet, spreken we van een absent pattern anomalie. In tegenstelling tot reguliere anomalieën, kan men absent pattern anomalieën identificeren op basis van de afwezigheid van normaal gedrag, niet de aanwezigheid van abnormaal gedrag. We introduceren een algoritme dat een beperkte set van door de gebruiker geannoteerde patronen exploiteert om hun verdachte afwezigheid op te sporen.

De tweede contributie is een anomaliedetectie algoritme dat de kennis die vervat zit in event logs exploiteert. In een event log bewaart de expert al de events die nuttig zouden kunnen zijn om patronen in de data te identificeren. We ontwikkelen een algoritme dat de informatie vervat in zowel continue tijdsreeksdata (bv. waterconsumptie metingen in een supermarkt doorheen de tijd) als de bijhorende discrete event logs gebruikt om abnormaal gedraag in de tijdsreeksdata te identificeren (bv. waterlekken in de winkel).

De finale contributies van deze thesis richten zich op het optimaal uitbuiten van binaire labelinformatie ofwel verkregen van de expert ofwel beschikbaar voor een gerelateerde dataset. Voor veel praktische problemen uit de echte wereld, hebben we meerdere, doch gerelateerde datasets ter beschikking. De meeste bedrijven verzamelen bijvoorbeeld data voor meerdere machines tegelijkertijd. De expert voorziet binaire labelinformatie voor slechts enkele van deze datasets. We ontwerpen een labelpropagatie algoritme dat toelaat om de anomaliescores berekend door gelijk welk data-gedreven detectie algoritme aan te passen op basis van labelinformatie. De labels zijn verkregen door middel van een active learning strategie. Het gebruik van de data-gedreven detector laat toe om een initiële anomaliescore te berekenen voor iedere observatie in de dataset, terwijl de labelpropagatie ons in staat stelt om deze score op een model-agnostische manier te corrigeren. Tot slot introduceren we verschillende algoritmes om binaire labelinformatie over te dragen tussen twee verschillende, doch gerelateerde datasets. Deze algoritmes vergelijken de dataverdelingen van de twee datasets om te besluiten of ze gelijkaardig genoeg zijn om de labeltransfer te verantwoorden.

Datum:28 sep 2015 →  18 dec 2020
Trefwoorden:time series, event streams, anomaly detection
Disciplines:Toegepaste wiskunde, Artificiële intelligentie, Cognitieve wetenschappen en intelligente systemen, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen
Project type:PhD project