Publicatie

Empirically Evaluating Process Mining Algorithms: Towards Closing the Methodological Gap

Boek - Dissertatie

Om competitief te blijven op een globale en snel veranderende markt, hebben bedrijven hun focus verlegd van de producten en diensten naar de manier waarop deze gemaakt en geleverd worden aan de klant. Een gevolg daarvan is dat het beheren van de bedrijsprocessen belangrijker is geworden. Bedrijven hebben steeds meer en meer data verzameld over de uitvoering van deze bedrijfsprocessen ondersteund door informatiesystemen. Dit heeft geleid tot een explosie van beschikbare procesdata. Process mining technieken bieden de mogelijkheid om onontgonnen kennis uit zulke procesdata, ook wel event logs genoemd, te halen. Deze technieken reiken praktische inzichten en ideeën aan met het doel bedrijfsprocessen te verbeteren en hun performantie te verhogen. Het startpunt van process mining is het ontdekken van een procesmodel uit de event log, ook wel process discovery genoemd. Het ontdekte model biedt een objectieve weergave van de realiteit door de volgorde van de verschillende procesactiviteiten te visualiseren. Met behulp van het ontdekte model kan je twee andere types van process mining technieken toepassen, namelijk conformance checking en enhancement. Conformance checking technieken sporen afwijkingen op tussen een event log en het ontdekte model. Enhancement technieken voegen informatie toe aan het ontdekte model op basis van de gegevens in de event log. Voorbeelden hiervan zijn kosten, eigenschappen van de procesinstantie en klantgegevens. Een essentieel onderdeel van procesmodellen zijn de beslissingspunten waar bepaald wordt welk pad de procesinstantie doorheen het proces volgt. Zo kan een bedrijf bijvoorbeeld korting toekennen aan loyale klanten. Het ontdekte model bevat zulke informatie niet. Met behulp van decision mining technieken kan je op basis van de informatie in de event log leren hoe de beslissingen in het ontdekte model genomen worden. Het stijgende aantal process discovery en decision mining technieken heeft er toe geleid dat het onderzoek omtrent het empirisch evalueren van deze technieken meer aandacht heeft gekregen. Deze evaluaties hebben als doel om inzichten te leveren over welke technieken goed werken bij welke soorten procesgedrag. Een empirische evaluatie van process discovery/decision mining technieken vereist de volgende vier stappen: het bepalen van het doel van de evaluatie, het selecteren van de procesdata, het kiezen van een geschikte kwaliteitsmaatstaf en het toepassen van de correcte statistische test. Elk van deze vier stappen biedt onopgeloste vraagstukken die het onderzoeksdomein verhinderen inzichten te verkrijgen in de sterktes en zwaktes van process discovery en decision mining technieken. Deze thesis spitst zich toe op de uitdagingen rond de selectie van procesdata, kwaliteitsmeting en statistische tests voor process discovery. Bovendien pakt deze thesis ook de uitdagingen rond procesdata en kwaliteitsmeting voor decision mining evaluatie aan. Het selecteren van de procesdata biedt de eerste uitdaging voor process discovery evaluatie. Geen enkele van de bestaande evaluatiemethoden specifieert een methodologie voor het kiezen van de geschikte procesdata voor het evalueren van process discovery technieken. Bovendien bevat de bestaande verzameling van reële event logs, die vaak gebruikt wordt voor evaluatie, geen referentiemodellen waardoor ze niet toelaat om statistisch significante conclusies te veralgemenen naar een procespopulatie. Anderzijds zijn bestaande artificiële datageneratoren beperkt in de proceskarakteristieken die ze genereren en garanderen ze geen correct experimenteel ontwerp zodat de geldigheid van de statistische conclusies niet zeker is. De tweede uitdaging omvat het meten van de kwaliteit van de ontdekte modellen. De huidige evaluatiemethoden vertrouwen op maatstaven die sterk gelinkt zijn aan de modelnotatie en hierdoor de kwaliteitsresultaten beïnvloeden. De finale uitdaging betreft de statistische tests die uitgevoerd worden om algemene conclusies te trekken op basis van de resultaten. De huidige evaluatiemethoden gebruiken niet-willekeurige steekproeven waarvan men de populatie niet kan achterhalen en dus de resultaten niet veralgemeend kunnen worden naar de populatie. De belangrijkste uitdaging bij het evalueren van decision mining technieken is het ontbreken van een standaardprocedure. Als gevolg daarvan zijn er maar enkele empirische evaluaties uitgevoerd die problemen ondervonden met de selectie van procesdata en het meten van de kwaliteit. Deze evaluaties gebruikten kleine niet-willekeurige steekproeven die niet veralgemeend kunnen worden naar een populatie. Bestaande artificiële datageneratoren zijn niet ontworpen voor het evalueren van decision mining technieken en bieden geen oplossing voor de bestaande uitdagingen. Bovendien hebben de huidige evaluatiemethoden verschillende kwaliteitsmaatstaven gebruikt die niet volledig objectief zijn. Tot slot heeft de beperking tot kleine steekproeven geleid tot het ontbreken van statistische analyses in de bestaande evaluaties. Zolang het onderzoeksdomein de bestaande uitdagingen gerelateerd aan de evalatie van process discovery en decision mining technieken niet aanpakt, zal er geen consensus zijn over de kwaliteit van de bestaande technieken. Daarom is het hoofddoel van deze thesis het ontwerpen van empirische evaluatieprocedures voor zowel process discovery als decision mining die een objective vergelijking en veralgemening van de resultaten toelaten. Het hoofddoel is verder opgedeeld in drie onderzoeksdoelen. Het eerste onderzoeksdoel omvat de Generating artificial Event Data (GED) methodologie voor het genereren van willekeurige procesmodellen en event logs voor empirische evaluatie van process discovery en decision mining technieken. De GED methodologie start met het definiëren van de procesmodelpopulatie. Deze definitie specifieert de procespatronen die de modellen in de populatie karakteriseren. In een volgende stap wordt een willekeurige steekproef bestaande uit procesmodellen getrokken uit de populatie. Deze steekproef wordt dan gesimuleerd in willekeurige event logs. De Process Tree and Log Generator (PTandLogGenerator) voorziet de nodige algoritmes en ondersteuning om de GED methodologie te implementeren en te automatiseren. De nieuwe algoritmes maken het mogelijk om procespatronen, i.e. langetermijnafhankelijkheden, meerkeuze en gedupliceerde activiteiten, te introduceren in de gegenereerde modellen die niet mogelijk waren in bestaande datageneratoren. De evaluatie van de PTandLogGenerator toont aan dat deze effectief de GED methodologie ondersteunt en leidt tot nieuwe inzichten over process discovery technieken. Bovendien maakt de uitbreiding, DataExtend genoemd, het mogelijk om procesinstantiekenmerken de beslissingspunten in een model te laten verklaren. Als gevolg daarvan kan men op die manieer ook decision mining technieken evalueren. Het tweede onderzoeksdoel bestaat erin de GED methodologie te incorporeren in een nieuwe evaluatieprocedure voor process discovery technieken. De nieuwe procedure focust op het meten van de kwaliteit van een techniek om het onderliggende proces te herontdekken, onafhankelijk van de gebruikte procesnotatie. De procedure vertrekt vanuit een modelpopulatie van waaruit willekeurige referentiemodellen getrokken worden. Vervolgens, meet de procedure de kwaliteit van een discovery techniek met behulp van een classificatiemethode die de kennis van het referentiemodel hanteert. Twee experimenten met vier process discovery technieken die verschillende procesnotaties hanteren hebben aangetoond dat de nieuwe procedure de doelen van empirische process discovery evaluatie ondersteunt: het vergelijken van technieken en het analyseren van de impact van procespatronen op de kwaliteit van het ontdekte model. Bovendien kunnen de resultaten van de experimenten veralgemeend worden naar de modelpopulaties. Tot slot biedt de ontworpen implementatie van de nieuwe procedure onderzoekers de mogelijkheid om hun experimenten te delen zodat ze gemakkelijk gereproduceerd kunnen worden. Het derde onderzoeksdoel omvat het uitbreiden van de evaluatieprocedure voor process discovery technieken tot de eerste evaluatieprocedure voor decision mining technieken. Deze nieuwe procedure integreert opnieuw de GED methodologie met de uitbreiding om referentiemodellen te genereren met procesinstantiekenmerken die de beslissingpunten beïnvloeden. In een volgende stap meet de procedure de kwaliteit van de decision mining technieken om de beslissingslogica te herontdekken op basis van de event log. De kwaliteitsmeting hanteert opnieuw een classificatiemethode die de kennis van het referentiemodel met beslissingslogica uitbuit. De experimenten tonen aan dat de nieuwe procedure toelaat om decision mining technieken te vergelijken en de impact van procespatronen, zoals het determinisme van beslissingspunten, op de kwaliteit van het ontdekte model met beslissingslogica te bepalen. Bovendien kan men, door het starten vanuit de modelpopulatie, de bekomen resultaten veralgemenen naar die populatie. In zijn geheel beoogt deze thesis om het uitvoeren van evaluatie-experimenten te stimuleren en aan te zetten tot nog meer onderzoek naar empirische evaluatie van process discovery en decision mining technieken. Eerst en vooral ondersteunen de nieuwe evaluatieprocedures het vergelijken van technieken om onderzoekers te helpen de echte waardeverhoudingen tussen de verschillende technieken te bepalen. Dit biedt een antwoord op de vraag ``welke process discovery techniek presteert het beste op event logs met moeilijk te ontdekken procesgedrag?'', bijvoorbeeld gedupliceerde activiteiten. Die antwoorden helpen onderzoekers in het beoordelen van de kwaliteitsverbetering van nieuwe technieken ten opzichte van bestaande technieken. Ten tweede, ondersteunen de nieuwe evaluatieprocedures de analyse van de impact van bepaalde procespatronen, bijvoorbeeld het determinisme van de beslissingspunten, op de kwaliteit van de modellen/logica ontdekt door de geëvalueerde technieken. Zulke beoordelingen zijn van vitaal belang om te begrijpen waarom de process discovery en decision mining technieken werken in bepaalde situaties. Tot slot kan de verworven kennis evaluatie-experimenten het onderzoeksdomein bijstaan om aanbevelingen op te stellen over hoe de meest kwaliteitsvolle process discovery of decision mining techniek in de praktijk gekozen kan worden.

Aantal pagina's: 246

Jaar van publicatie:2018

Trefwoorden:process mining, process discovery, decision mining, empirical evaluation, artificial data

Handle: http://hdl.handle.net/1942/26679

Toegankelijkheid:Open

Publicatie

Empirically Evaluating Process Mining Algorithms: Towards Closing the Methodological Gap

Boek - Dissertatie

Auteurs/uitgever

Onderzoekseenheden