< Terug naar vorige pagina

Project

Cure models in survival analysis: from modelling to prediction assessment of the cure fraction.

In de overlevingsanalyse bestudeert en modelleert men de tijd tot het optreden van een bepaalde gebeurtenis.  Deze gebeurtenis is in vele gevallen het overlijden van levende wezens, vanwaar de naam ‘overlevingsanalyse’ en zijn bijhorende terminologie is afgeleid.  Aangezien de data enkel kunnen verzameld worden over een eindig tijdsinterval, kan de ‘time to event’ (tijd tot de gebeurtenis) niet voor alle individuen geobserveerd worden.  Dit is bijvoorbeeld het geval wanneer een patient een klinische studie verlaat voor het afsluiten van die studie, of wanneer zij/hij nog leeft op het einde van die studie. In dat geval is de overlevingstijd van dit individu niet gekend. Dit fenomeen, dat met censurering noemt, creëert atypische moeilijkheden bij het analyseren van overlevingsdata, die niet kunnen overkomen worden met standaard statistische methoden.

In traditionele overlevingsanalyse wordt ondersteld dat alle subjecten in de populatie vatbaar zijn voor de gebeurtenis die ons interesseert, namelijk voor elk subject is ofwel de gebeurtenis reeds opgetreden of zal die in de toekomst optreden.  Echter, het gebeurt vaak dat voor een deel van de individuen (de zogenaamde ‘long-term survivors’) de gebeurtenis nooit zal optreden, zij worden daarom beschouwd als ‘event free’ of ‘cured’.  Dit is bijvoorbeeld het geval wanneer patienten een behandeling krijgen, met als doel het evalueren van het effect op het terugkeren van de ziekte.  Bij veel individuen zal de ziekte nooit terug optreden en zij kunnen dus beschouwd worden als genezen of immuun. 

In de literatuur over ‘cure’ modellen zijn er essentieel twee types modellen: het ‘mixture cure model’ en het zogenaamde ‘promotion time cure model’.  In het eerste model wordt de overlevingsfunctie gemodelleerd door te veronderstellen dat de onderliggende populatie een ‘mixture’ is van twee sub-populaties: de subpopulatie van de ‘susceptibles’, namelijk zij die de gebeurtenis zullen meemaken en een eindige overlevingstijd hebben, en de sub-populatie van de ‘non-susceptibles’, dus zij die ‘event-free’ zijn en een oneindige overlevingstijd hebben.  Aan de andere kant is het ‘promotion time cure model’ gemotiveerd door een onderliggende biologische interpretatie in termen van de tijd tot het optreden van kanker, en gebruikt het een directe modelleringsbenadering zonder de ‘susceptibles’ en de ‘non-susceptibles’ op te splitsen, zoals wel het geval is voor het ‘mixture cure model’.  In die zin zijn de twee modelleringsbenaderingen erg verschillend. Beide modellen zijn uitgebreid bestudeerd geweest in de literatuur, de noodzakelijke condities die leiden tot de identificeerbaarheid van de modellen zijn afgeleid geweest, en verschillende parametrische, semi-parametrische en niet-parametrische schattingsmethoden zijn voorgesteld en bestudeerd geweest zowel asymptotisch als voor eindige steekproeven.  

In deze thesis zijn we geïnteresseerd in het bestuderen van drie onderwerpen die verband houden met deze modellen.

De eerste bijdrage bestaat in het geven van een ‘state of the art’ van ‘cure’ modellen, door het bespreken van alle hierboven vermelde punten en het geven van een formele en numerieke vergelijking van de twee modellen met behulp van een toepassing op een data set.

De tweede bijdrage van deze thesis concentreert zich op het ‘mixture cure model’ en in het bijzonder op de ‘uncure proportion’, namelijk de proportie van ‘susceptibles’.  Deze grootheid wordt vaak parametrisch gemodelleerd, door een logistisch regressie model te onderstellen.  Echter, er is geen reden om deze proportie te beperken tot een logistische vorm.  Onze doelstelling is daarom het voorstellen van een meer flexibele modelleringsbenadering voor deze proportie door een ‘single-index’ structuur te onderstellen, i.e. een veralgemeend lineair model waarin de ‘link’ functie niet gespecifieerd wordt, en door een Cox ‘proportional hazards’ model te beschouwen voor de conditionele ‘survival’ functie van de subjecten die ‘uncured’ zijn.

Ten slotte, naast het modelleren en het uitvoeren van model selectie, is een belangrijk onderdeel van een statistische analyse het evalueren van een model, door middel van de beoordeling van de predicties die kunnen gemaakt worden met een statistisch model.  Voor ‘cure’ modellen kunnen predicties gemaakt worden voor twee ‘outcomes’, namelijk de ‘survival’ op een gegeven tijdsstip en de ‘cure status’. Beide variabelen zijn binair. Voor het evalueren van de kwaliteit van een binaire classificatie wordt vaak de ‘Receiver Operating Characteristic (ROC)’ curve gebruikt.  Echter, terwijl standaard ROC curves onderstellen dat de variabelen volledig geobserveerd zijn, is dit niet het geval voor de ‘cure status’ aangezien ‘survival data’ onderworpen zijn aan censurering.  Bijgevolg is het opstellen van een ROC curve voor ‘cure survival data’ een niet-triviaal probleem.   De laatste bijdrage van deze thesis is daarom het ontwikkelen van ROC curves voor het evalueren van de kwaliteit van de predictie van de ‘cure status’ aan de hand van ‘survival data’ in de aanwezigheid van een ‘cure’ proportie.

Datum:23 nov 2016  →  9 nov 2018
Trefwoorden:Statistics, Survival analysis, Cure models
Disciplines:Toegepaste economie, Economische geschiedenis, Macro-economie en monetaire economie, Micro-economie, Toerisme
Project type:PhD project