< Terug naar vorige pagina

Project

Development and implementation of real-time, robust statistical methods with novel applications in food sorting

In industriële voedselsortering worden snelle sensortechnologieën gebruikt voor de automatische inspectie van voedselproducten. Deze sensoren produceren doorgaans multivariate gegevens die op hun beurt gebruikt worden als invoer voor classificatie-algoritmen. Deze classificatoren zijn verantwoordelijk voor de detectie van frequent voorkomende defecten tussen het reguliere materiaal. In een geautomatiseerd inspectieproces worden grote hoeveelheden product gescand waarbij gigabytes aan multivariate data gegenereerd worden in milliseconden waardoor de grenzen van de beschikbare rekenkracht vaak overschreden wordt.

Uitschieters kunnen de classificatie-efficiëntie van traditionele methoden echter sterk beïnvloeden. Robuuste algoritmen zijn dus een absolute must, aangezien
industriële datasets doorgaans sterk gecontamineerd zijn door uitschieters in de vorm van label- en meetruis.

Geen van de bekende methoden met hoog breekpunt kunnen echter de enorme hoeveelheid gegevens van deze machines aan. Dit proefschrift lost dit probleem op door de introductie van nieuwe robuuste statistische procedures, die snel te berekenen zijn en specifiek ontworpen zijn voor robuuste outlierdetectie en classificatieproblemen met meerdere klassen.

Dit doctoraatsproefschrift bevat vier hoofdstukken, waarin de relatie tussen de verschillende detectietechnieken in het eerste hoofdstuk wordt besproken.

Het tweede hoofdstuk behandelt de versnelling van de deterministische minimalecovariantiedeterminant methode (DetMCD), die uitschieters detecteert via een robuuste covariantiematrix. We ontworpen een veel snellere versie van DetMCD door de oorspronkelijke initiële schatters te vervangen door twee nieuwe schatters en snellere concentratiestappen. De rekentijd wordt verder verminderd door de integratie van parallelle berekeningen, met inbegrip van een nieuwe robuuste aggregatiemethode die alle deelresultaten combineert.

In het derde hoofdstuk integreren we de real-time DetMCD-methode in kwadratische discriminantanalyse (QDA), wat een breed gebruikte classificatietechniek is. Dit laat ons toe om classificatieproblemen op te lossen met meerdere klassen. Op basis van een trainingsset wordt elke individuele klasse gekarakteriseerd door een schatting van het centrum en de vorm, welke vervolgens gebruikt wordt om ongekende testset-observaties toe te wijzen aan één van de klassen. We stellen dus een nieuwe robuuste QDA-methode voor, waarbij we bovendien een anomaliedetectie integreren om de meest verdachte observaties in een aparte klasse van uitschieters onder te brengen. We introduceren ook de label-bias (LB) plot, een grafische weergave die toelaat uitschieters in trainingssets te visualiseren.

De meeste technieken voor het opsporen van uitschieters gaan er echter van uit dat de reguliere observaties ruwweg elliptisch verdeeld zijn, maar voor veel datasets is dat niet het geval. Bovendien neemt de rekentijd aanzienlijk toe wanneer het aantal variabelen stijgt. In het vierde hoofdstuk stellen we daarom de Kernel Minimum Regularized Covariance Determinant (KMRCD) schatter voor, die beide problemen aanpakt. Deze schatter is niet beperkt tot elliptisch-verdeelde gegevens omdat deze robuuste covarianties impliciet in een kernel-geïnduceerde feature-space berekent. Een snel algoritme dat vertrekt van kernel-gebaseerde initiële schattingen wordt voorgesteld, waarbij de kernel truc wordt aangewend om opeenvolgende berekeningen te versnellen.

 

Datum:1 okt 2016 →  17 dec 2020
Trefwoorden:robust statistics, big data, outlier detection
Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen, Statistische en numerieke methoden
Project type:PhD project