< Terug naar vorige pagina

Project

Robuuste inferentie technieken gebaseerd op resampling

Lineaire regressie is het meest bekende type van regressieanalyses in statistiek. Een statistische analyse van een lineair regressiemodel begint meestal met het schatten van de regressiecoëfficiënten en gaat door met het meten van de nauwkeurigheid van de schatters. Helaas is het bekend dat een traditionele statistische analyse gebaseerd op kleinste kwadraten principes zeer gevoelig is aan uitschieters in de data. Hoewel veel robuuste schatters zijn voorgesteld om het effect van uitschieters te beheersen, zijn robuuste inferentietechnieken schaars gebleven. Daarom is het hoofddoel van deze thesis het onderzoeken van robuuste inferentietechnieken. Voor de aanpak in dit proefschrift is het sleutelbegrip voor de ontwikkeling van robuuste inferentie de snelle en robuuste resampling methodologie. In plaats van standaard resampling technieken toe te passen zoals bootstrapping of subsampling, wordt een resampling verdeling gegenereerd door het berekenen van een snelle en robuuste resampling schatter voor een groot aantal resamples. De verkregen resampling verdeling is robuust tegen uitschieters en kan ook extreem snel berekend worden, in tegenstelling tot het originele resampling algoritme. Inferentie gebaseerd op snelle en robuuste resampling wordt beschouwd voor schijnbaar ongerelateerde regressiemodellen en gegeneraliseerde lineaire modellen.

Schijnbaar ongerelateerde regressiemodellen veralgemenen lineaire regressiemodellen met normaal verdeelde fouten door meerdere regressievergelijkingen te beschouwen die worden gekoppeld door gelijktijdig gecorreleerde storingen. MM-schatters worden geïntroduceerd om schatters te verkrijgen die een hoog breekpunt en een hoge normale efficiëntie hebben. Vervolgens wordt een snelle en robuuste bootstrap procedure ontwikkeld om robuuste inferentie voor deze schatters te verkrijgen. Betrouwbaarheidsintervallen voor de modelparameters evenals hypothesetoetsen voor lineaire beperkingen van de regressiecoëfficiënten in schijnbaar ongerelateerde regressiemodellen worden geconstrueerd. Om de behoefte aan een schijnbaar ongerelateerd regressiemodel te evalueren, wordt bovendien een robuuste procedure voorgesteld om de aanwezigheid van correlaties tussen de storingen te testen. De prestaties van de snelle en robuuste bootstrap inferentie worden empirisch geëvalueerd in simulatiestudies en geïllustreerd op echte gegevens.

MM-schatters voor schijnbaar ongerelateerde regressiemodellen worden toegepast in het kader van stochastische verliesreservering voor schadeverzekeringen, als een robuust alternatief voor de algemene multivariate chain ladder methode. De chain ladder methode is een veel gebruikte techniek om de reserves te voorspellen die een verzekeringsmaatschappij verschuldigd zal zijn in geval van een claim. Om voorspellingen te doen voor meerdere schadedriehoeken tegelijkertijd, is een algemene multivariate chain ladder methode voorgesteld die rekening houdt met gelijktijdige correlaties en structurele verbindingen tussen verschillende schadedriehoeken. Met de robuuste methodologie is het mogelijk om te detecteren welke claims een abnormaal grote invloed hebben op de reserveschattingen. Een simulatieontwerp wordt geïntroduceerd om kunstmatige multivariate schadedriehoeken te genereren en het belang om rekening te houden met gelijktijdige correlaties en structurele verbindingen tussen de schadedriehoeken wordt geïllustreerd. Door gecontamineerde gegevens te genereren wordt de gevoeligheid van de traditionele chain ladder methode en de goede prestatie van de robuuste methode getoond. De analyse van een portfolio uit de praktijk maakt duidelijk dat de robuuste methode een beter inzicht kan geven in de structuur van de gegevens.

Ten slotte wordt robuuste modelselectie geïntroduceerd voor gegeneraliseerde lineaire modellen, geïnspireerd op de snelle en robuuste methode voor resampling. Het selecteren van het optimale model uit een reeks concurrerende modellen is een essentiële taak in statistiek. Er wordt bijzondere aandacht besteed aan een robuust modelselectiecriterium dat goedheid van de fit en een mate van voorspelling combineert. Het voorspellingsverlies wordt geschat met behulp van resampling technieken. Naast case bootstrapping komen ook algoritmen voor error bootstrapping en subsampling in aanmerking. Om de rekenlast te verminderen wordt een aangepaste snelle en robuuste methode voor resampling voorgesteld. Er wordt aangetoond dat deze wijziging nog steeds een consistent modelselectiecriterium oplevert, in de zin dat het optimale model wordt geïdentificeerd met kans één als de steekproefomvang tot oneindig groeit. De prestatie van de voorgestelde methodologie wordt empirisch geëvalueerd door middel van een simulatiestudie en geïllustreerd aan de hand van voorbeelden van echte gegevens.

Datum:15 sep 2014  →  1 okt 2018
Trefwoorden:robust statistics, robust inference, fast and robust bootstrap
Disciplines:Toegepaste wiskunde in specifieke velden, Statistische en numerieke methoden
Project type:PhD project