< Terug naar vorige pagina

Project

Methoden met meer niveaus voor multirelationele factorisatie met eigenschappen

Methoden in het machinaal leren spelen een alsmaar belangrijkere rol in de maatschappij. De beschikbare hoeveelheid data voor deze technieken neemt exponentieel toe. Dit enorme volume aan informatie moet echter effici\"ent opgeslagen en verwerkt worden. Het ontwikkelen van schaalbare en robuuste methoden voor deze grootschalige datasets is daarom steeds belangrijker. 

Matrix factorisatie van een onvolledig ingevulde matrix is \'e\'en van de technieken die succesvol toegepast is voor grootschalige  recommandatiesystemen. Matrix factorisatie is gegeneraliseerd tot Bayesian Multirelationele factorisatie met eigenschappen. Deze methode is specifiek ontwikkeld voor grootschalige data en maakt gebruikt van extra informatie bij de factorisatie. Dit ontwikkelde algoritme is gebaseerd op Bayesian Markov Chain Monte Carlo en dan specifiek op Gibbs sampling. Voor het nemen van samples moet een lineair stelsel opgelost worden. Hiervoor wordt gebruikt gemaakt van een iteratieve methode gebaseerd op een Krylov deelruimte en de methode buit zo de ijlheid van de data uit. De methode heeft echter nog twee knelpunten, namelijk (1) de snelheid en het aantal iteraties van de Gibbs sampler tijdens de burn-in en (2) het aantal iteraties van de lineaire solver. 

Inspiratie om deze knelpunten te verbeteren is gevonden bij methodes met meer niveaus voor parti\"ele differentiaalvergelijkingen. Bij deze methodes combineren ze oplossingen van verschillende niveaus. Elk niveau benadert dezelfde oplossing, maar er is echter een verschil in nauwkeurigheid tussen de verschillende niveaus. De ruwere oplossingen zijn minder nauwkeurig dan de fijnere oplossingen, maar de ruwere oplossingen zijn wel computationeel goedkoper om te berekenen dan de fijnere oplossingen. De totale computationele uitvoeringstijd kan door gebruik te maken van de oplossingen op meerdere niveaus gereduceerd worden zonder enige of beperkt verlies in nauwkeurigheid van de benaderde oplossing. 

In deze thesis onderzoeken we het gebruik van iteratieve methodes met meer niveaus voor de Gibbs sampler voor Bayesiaanse regressie. Deze sampler heeft dezelfde computationele knelpunten als de sampler van Bayesian Multirelationele factorisatie met eigenschappen. Een hierarchy van data matrices is gemaakt door het clusteren van de eigenschappen en/of de samples van de data. De ruwere data niveaus behouden grotendeels de variantie van de data op de fijnere niveaus, maar de oplossingen zijn computationeel sneller te berekenen. Deze hi\"erarchie is vervolgens uitgebuit om een preconditioner met twee niveaus te maken voor het oplossen van het lineaire stelsel. Dezelfde hi\"erarchie van data matrices is tenslotte gebruikt om Gibbs samplers met meerdere niveaus te ontwikkelen.   

Datum:22 sep 2015 →  25 mei 2021
Trefwoorden:High performance computing, Numerical analysis, Preconditioning
Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen
Project type:PhD project