Project

Een declaratief raamwerk voor clusteren.

Een belangrijk hulpmiddel om inzicht te verkrijgen in data is clustering: het identificeren van verzamelingen van elementen die gelijkaardig zijn. Om tot een goede clustering te komen met het traditionele ongesuperviseerde clusteringproces moet een gebruiker een geschikte afstandsmaat kiezen, een gepast clusteralgoritme, en goede hyperparameterinstellingen. De juiste keuzes maken voor al deze componenten is moeilijk, en bijgevolg zijn er vaak veel iteraties nodig om een interessante clustering te produceren.

Het doel van dit doctoraat is om methoden te ontwikkelen die het makkelijker maken om een goede clustering te bekomen. Onze contributies situeren zich vooral in het domein van semigesuperviseerd clusteren. Semigesuperviseerde methoden laten de gebruiker toe om het clusteringproces te sturen door middel van directe feedback, in plaats van door het maken van complexe keuzes in een ongesuperviseerde clustering pipeline. We beschouwen feedback in de vorm van paarsgewijze constraints, die aangeven of twee elementen tot dezelfde cluster moeten behoren of niet.

Dit proefschrift beschrijft vijf hoofdcontributies. De eerste contributie is een onderzoek naar het gebruik van interne kwaliteitsmetrieken voor het selecteren van een clusteralgoritme en bijhorende hyperparameterinstellingen. We identificeren belangrijke tekortkomingen van bestaande metrieken, en besluiten dat ze niet geschikt zijn voor onze doeleinden. In onze tweede contributie onderzoeken we of de consistentie van verzamelingen van constraints (\emph{constraint set consistency}) gebruikt kan worden om een semigesuperviseerd algoritme te kiezen. Onze resultaten tonen aan dat deze metriek niet gebruikt kan worden binnen de context van individuele datasets, en bijgevolg niet nuttig is voor het selecteren van een algoritme. In onze derde contributie gebruiken we constraints om een ongesuperviseerd algoritme en bijhorende hyperparameterinstellingen te selecteren. We tonen aan dat onze eenvoudige strategie doeltreffend werkt, en vaak betere clusterings genereert dan bestaande semigesuperviseerde algoritmen die binnen de grenzen van een enkel algoritme werken. In onze vierde contributie introduceren we \emph{super-instances}, en twee concrete methoden die gebaseerd zijn op dit concept: COBRA en COBRAS. COBRAS is het eerste semigesuperviseerde clusteralgoritme dat de gebruiker toelaat om werkelijk interactief en iteratief te clusteren met paarsgewijze constraints. Tot slot tonen we in onze vijfde contributie aan dat COBRAS eenvoudig aangepast kan worden om ook opgegeven labels te benutten, naast paarsgewijze constraints. Dit leidt tot betere clusterings, vooral als het aantal clusters groot is.

Datum:30 jun 2014 → 31 dec 2018

Trefwoorden:machine learning, Declarative clustering, data mining

Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen

Project type:PhD project

Project

Een declaratief raamwerk voor clusteren.

Onderzoekers

Project partners

Financiering

Publicaties