Project

Machine learning gebruiken voor analyse van opgegeven voorkeuren

Discrete Choice Modellen (DCM) worden op grote schaal gebruikt op verschillende gebieden, zoals economie, marketing, transport, gezondheidszorg en milieuwaardering, om er maar een paar te noemen. Deze modellen hebben uiteindelijk de niet geringe ambitie om menselijk gedrag te modelleren door de voorkeuren van individuen te analyseren. Dit proefschrift draagt bij aan het uitbreiden van de toolkit voor keuzemodellen door het ontwikkelen van statistische software, het introduceren van statistische tests voor modelspecificatie en het verbeteren van conventionele DCM met behulp van Machine Learning-technieken. Hoofdstuk twee vat de nieuwste ontwikkelingen op het gebied van Random Regret-minimalisatiemodellen samen en biedt statistische software voor het schatten en testen van een groot aantal van deze modellen. Dankzij de conventionele Stata-syntaxis van één regel kan de gebruiker deze modellen gemakkelijk aanpassen. Hoofdstuk drie introduceert een eenvoudige statistische test voor de verdeling van de logit-modellen met willekeurige coëfficiënten. Het presenteert een eenvoudig te implementeren test die, met behulp van simulaties, krachtig blijkt te zijn in het detecteren van onjuist aangenomen verdelingen, terwijl de juiste nominale grootte wordt bereikt bij gebruik van de juiste verdeling. Hoofdstuk vier onderzoekt het gebruik van een algemeen modelgebaseerd recursief partitie-algoritme om voorkeursheterogeniteit te modelleren. We gebruiken het algoritme om een beslissingsboom te laten groeien op basis van statistische tests van de stabiliteit van de voorkeursparameters van individuen. In het bijzonder hebben we een Mixed Logit (MIXL)-model gebruikt met alternatief-specifieke attributen aan de eindbladen van de boom, terwijl we individuele kenmerken als partitievariabelen gebruikten. Deze configuratie stelt ons in staat om te zoeken naar instabiliteiten van de smaakparameters over de kenmerken van individuen heen. We voeren een simulatiestudie uit om het vermogen van het algoritme te onderzoeken om verschillende gegevensgenererende processen met structurele breuken in de smaakparameters te herstellen. De resultaten laten zien dat het algoritme diverse boomachtige gegevensgenererende processen correct kan herstellen. Daarnaast hebben we het algoritme toegepast op de keuzegegevens van de voorkeuren voor de milieu-impact van (hypothetische) energieopwekkingsplannen in Chili. De resultaten laten zien dat de modelgebaseerde beslisboom beter bij de data past dan MIXL wat betreft informatiecriteria. Bovendien laten we zien dat de afgeleide boomstructuur afhankelijk is van de aannames van de verdelingen van de parameters. Daarnaast vergelijken we het modelgebaseerde beslisboommodel met Latent Class (LC)-modellen met en zonder heterogeniteit binnen de klasse. Ten slotte laten we zien dat het recursieve partitie-algoritme informatie kan geven over de selectie van variabelen die moeten worden opgenomen in de LC-allocatiemodellen. In Hoofdstuk Vijf wordt het MixTasteNet-model voorgesteld, een nieuwe hybride van een Artificial Neural Network (ANN) en een Mixed Logit (MIXL)-model, voor het modelleren van ‘smaakheterogeniteit’. Hoewel conventionele Multinomial Logit (MNL)-modellen waargenomen heterogeniteit kunnen incorporeren door interacties tussen alternatief-specifieke regressoren en individuele kenmerken op te nemen, is het een omslachtig proces van vallen en opstaan dat het aantal geschatte parameters snel kan vergroten. Daarentegen zijn modellen met willekeurige coëfficiënten, zoals MIXL-modellen, bedoeld om niet-geobserveerde heterogeniteit vast te leggen door middel van verdelingsaannames over de smaakparameters. Hybride modellen gebruiken de kenmerken van individuen om een ANN te voeden en produceren heterogene smaakparameters die zijn opgenomen in de gebruiksspecificatie. Het MixTasteNet-model gaat nog verder door gelijktijdig willekeurige coëfficiënten, die niet-waargenomen heterogeniteit vastleggen, en een ANN-component, die de waargenomen heterogeniteit vastlegt, op te nemen in de nutsspecificatie. Het voorgestelde model is met name de eerste hybride specificatie die in DCM wordt gebruikt en die willekeurige coëfficiënten en een ANN bevat om de voorkeuren van individuen te modelleren. Ten slotte herstelt het MixTasteNet-model nauwkeurig de parameters van de echte modellen, terwijl het bereiken van de voorspelbaarheid van het grond-waarheidsmodel werd gedemonstreerd via simulatie.

Datum:4 okt 2019 → 4 okt 2023

Trefwoorden:Statistics, Machine Learning, Discrete Choice Analysis

Disciplines:Dataverzameling en data estimation methodologie, computerprogramma's, Econometrische modellering, Machine learning en besluitvorming

Project type:PhD project

Project

Machine learning gebruiken voor analyse van opgegeven voorkeuren

Onderzoekers

Project partners

Financiering