< Terug naar vorige pagina

Project

Statistische Technieken voor Anomaliedetectie en Fraude Analyse

Data is tegenwoordig van onschatbare waarde voor vele bedrijven. Bedrijven en instellingen investeren steeds meer in tools en platforms om data te verzamelen en op te slaan over alles wat hun bedrijf beïnvloedt, zoals hun klanten, transacties, producten en de markt waarin ze actief zijn. Hoewel de kosten voor het in stand houden van het enorme, zich uitbreidende volume aan data vaak aanzienlijk zijn, zijn bedrijven bereid om de investering te doen. Het dient immers hun ware ambitie om waardevolle informatie uit hun grote hoeveelheid data te kunnen halen. Bedrijven vertrouwen daarom steeds meer op datagestuurde technieken voor het ontwikkelen van krachtige voorspellende modellen om hen te helpen bij hun besluitvormingsproces. Deze modellen zijn echter vaak niet goed afgestemd op de doelstelling van de onderneming: winstmaximalisatie of het minimaliseren van financiële verliezen. De modellen houden namelijk geen rekening met de kosten en baten als gevolg van hun voorspellingen. In deze thesis stellen we nieuwe methoden voor om modellen te ontwikkelen die kosten en baten direct in de constructie van het model opnemen.

De eerste methode, genaamd ProfTree (Höppner et al., 2018), construeert een winstgedreven beslissingsboom voor het voorspellen van klantverloop. Verbraken et al. (2013) ontwikkelden een metriek om de verwachte maximale winst voor klantverloop (EMPC) te berekenen en zo het meest winstgevende model te selecteren. ProfTree integreert de EMPC-metriek rechtstreeks in de modelconstructie en gebruikt een evolutionair algoritme voor het leren van winstgedreven beslissingsbomen.

De tweede en derde methode, genaamd cslogit en csboost, zijn aangepaste technieken voor het ontwikkelen van een model wanneer de kosten als gevolg van verkeerde classificatie per datapunt verschillen. Voor ieder individueel datapunt wordt een drempel voor beslissingen afgeleid, die gebaseerd is op de kostenmatrix voor de detectie van betalingsfraude. Bijgevolg kan voor elke transactie een optimale kostengebaseerde beslissing gemaakt worden om al dan niet de transactie te blokkeren. De twee nieuwe methoden, cslogit en csboost, zijn respectievelijk gebaseerd op lasso-geregulariseerde logistische regressie en boosting van beslissingsbomen. Beide methoden minimaliseren de voorgestelde kostengebaseerde metriek bij het leren van een classificatiemodel.

Een grote uitdaging bij het opsporen van fraude is dat de frauduleuze activiteiten een minderheidsgroep vormen die een zeer klein deel van de dataset uitmaken, vaak minder dan 0.5%. Het opsporen van fraude in een zeer onevenwichtige dataset leidt doorgaans tot voorspellingen die de meerderheidsgroep bevoordelen waardoor fraude onopgemerkt blijft. De derde bijdrage in deze thesis is een oversampling-techniek, genaamd robROSE, die het probleem van onevenwichtige gegevens oplost door synthetische datapunten te creëren die de minderheidsklasse nabootsen. Dit gebeurt terwijl anomalieën worden genegeerd die het detectie-algoritme zouden kunnen verstoren en de resulterende analyse zouden kunnen bederven.

Naast het gebruik van methoden voor het nemen van datagestuurde beslissingen hanteren bedrijven vaak statistische technieken om anomalieën in hun gegevens te detecteren met als doel nieuwe inzichten te ontdekken. De loutere detectie van een abnormaal datapunt beantwoordt echter niet altijd alle vragen die bij dat datapunt horen. Van zodra een uitschieter wordt gedetecteerd is het van belang de vraag te stellen waarom dit datapunt als uitschieter wordt opgemerkt.

In deze thesis stellen we een efficiënte methode voor, genaamd SPADIMO (Debruyne et al., 2019), om de variabelen te detecteren die het meest bijdragen aan het abnormale gedrag van een uitschieter. De methode helpt daarbij om te begrijpen op welke manier een uitschieter zich voordoet.

Het SPADIMO-algoritme stelt ons in staat om de cellwise robuuste M- regressieschatter (Filzmoser et al., 2020) te introduceren. Het is de eerste schatter in zijn soort die zowel een overzicht van cellwise uitschieters oplevert die consistent is met het lineaire model, alsook een vector van regressiecoëfficiënten die robuust is tegen uitschieters. Als bijproduct levert de methode een dataset op die schattingen bevat van wat de waarden in cellwise uitschieters zouden moeten bedragen indien ze wel in het lineaire model zouden passen.

Alle geïntroduceerde algoritmen zijn geïmplementeerd in R en zijn inbegrepen in hun respectievelijke R-pakket samen met ondersteunende functies en aanvullende documentatie over het gebruik van de algoritmen. Deze R-pakketten zijn publiek beschikbaar op CRAN en github.com/SebastiaanHoppner.

Datum:1 sep 2016 →  7 sep 2020
Trefwoorden:Statistics
Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen, Statistische en numerieke methoden
Project type:PhD project