Project

“Mid-level” visuele factoren om menselijke esthetische voorkeuren voor afbeeldingen te voorspellen: een “deep-learning” benadering op basis van Bayesiaanse neurale netwerken en latente diffusiemodellen

Het belangrijkste doel van dit proefschrift is om een “deep-learning” model te ontwikkelen om menselijke esthetische voorkeuren voor beelden te voorspellen. Uitgangspunt is het bestaan van een “benchmark” dataset van voorkeuren, verzameld in een uitgebreide online studie met grote steekproeven van beelden van alledaagse taferelen en schilderijen en grote steekproeven van waarnemers (verzameld door een PhD student in de psychologie, die ook werkt aan het grotere project waartoe beide promovendi behoren). In de eerste fase van het huidige doctoraat zal een model worden ontwikkeld op basis van Bayesiaanse neurale netwerken (BNNs), waarin een “deep learning encoder” (d.w.z. een convolutioneel neuraal netwerk of CNN) gevolgd wordt door een Neuraal Netwerk Gaussiaans proces (NN-GP), waardoor het gemiddelde en de variantie van esthetische voorkeuren tegelijkertijd kunnen worden voorspeld. Naast de theoretische en praktische voordelen van deze aanpak, zullen we state-of-the-art segmentatiemodellen gebruiken die het mogelijk maken om de compositie van afbeeldingen te analyseren, als één van de belangrijke “mid-level” Gestalt-factoren waarvan bekend is dat ze belangrijk zijn voor de esthetiek van afbeeldingen. Het toepassen van Fourier-analyse op de segmentatie maakt het mogelijk om de samenstelling in laag- en hoogfrequente regimes te analyseren. In de tweede fase van dit doctoraat zal het BNN-model getest en verder gevalideerd worden door de ontwikkeling van een beeldsynthesemodel op basis van een diffusiemodel (DM) en een “Generative Adversarial Network” (GAN). Meer specifiek zullen we een Latent Diffusie Model (LDM) gebruiken door het diffusiemodel te trainen in de laagdimensionale latente ruimte die wordt geëxtraheerd door voorgetrainde “auto-encoders” in plaats van de ruimte van beeldpixels. Op deze manier breiden we GANalyze uit naar DMs door een voorgetrainde LDM als generator te integreren met de BNN voor esthetische voorkeur als beoordelaar. Daarnaast kunnen we de segmentatiekaart ook verstrengelen in de “denoising” stap van DMs, waardoor verdere controle mogelijk is over de samenstelling van gesynthetiseerde beelden, die vervolgens empirisch kunnen worden getest op hun esthetische waarde. Als laatste stap kunnen we proberen de selectie van beeldgebieden door oogbewegingen te integreren om extra controle uit te oefenen op de saliëntie van het gesynthetiseerde beeld.

Datum:3 apr 2023 → Heden

Trefwoorden:Aesthetics, Deep learning, Image characteristics, Bayesian Neural Networks, Segmentation, Diffusion

Disciplines:Zintuiglijke processen en perceptie, Cognitieve processen, Kennisrepresentatie en machine learning, Computervisie, Beeldverwerking

Project type:PhD project

Project

“Mid-level” visuele factoren om menselijke esthetische voorkeuren voor afbeeldingen te voorspellen: een “deep-learning” benadering op basis van Bayesiaanse neurale netwerken en latente diffusiemodellen

Onderzoekers

Project partners

Financiering