Publicatie

Weakly Supervised Methods for Information Extraction (Zwak gesuperviseerde methodes voor informatie extractie)

Boek - Dissertatie

Informatie extractie (IE) methoden detecteren en classificeren gestructu reerde informatie in ongestructureerde bronnen, zoals teksten of afbeeld ingen. Momenteel maken de meeste automatische IE methoden gebruik van ma chine leer algoritmes die worden getraind op grote, manueel geannoteerde datasets. De bekwaamheid van machine leer algoritmes om aanvullende of tegengestelde informatie te combineren is succesvol gebleken voor een gr ote verzameling van IE taken. Deze aanpak heeft echter ook twee grote na delen. Het eerste en meest belangrijke nadeel is dat voor elke nieuwe ta ak een nieuw trainingcorpus moet worden geannoteerd. Deze manuele annota tie omvat mogelijk duizenden zinnen of afbeeldingen, wat de kost van de ontwikkeling van IE methodes sterk doet rijzen. Een tweede nadeel is dat voor complexe IE taken, zelfs een grote dataset maar een fractie van al le structuren zal bevatten die herkend moeten worden. Dit kan de nauwkeu righeid van de IE methodes negatief beïnvloeden. In deze verhandeling bestuderen we zwak gesuperviseerd leren, waarbij ac curate IE methodes getraind worden op een kleine verzameling geannoteerd e voorbeelden en een grote verzameling niet geannoteerde voorbeelden. We bestuderen twee gevallen: (1) unimodaal zwak gesuperviseerd leren, waar geannoteerde teksten worden aangevuld met een grote verzameling niet ge annoteerde teksten (2) multimodaal zwak gesuperviseerd leren, waar afbee ldingen of video's worden aangevuld met teksten die hun inhoud beschrijv en. Voor het unimodale geval bestuderen we twee IE taken die informatie uit teksten extraheren. De eerste taak is de disambiguatie van ambigue woord en afhankelijk van de context waarin die woorden voorkomen. De tweede ta ak is het bepalen van het semantische frame voor elk werkwoord, samen me t de belangrijkste semantische rollen voor dat werkwoord. De IE algoritm en voor deze twee taken worden ontwikkeld met behulp van gerichte Bayesi aanse netwerken. We beschouwen twee categorieën van zwak gesuperviseerde methoden. De eerste categorie zijn semi-gesuperviseerde methoden die de parameters van de Bayesiaanse netwerken leren aan de hand van geannotee rde en niet geannoteerde voorbeelden. In deze netwerken worden de labels van niet geannoteerde voorbeelden voorgesteld met verborgen variabelen. De waardes van deze variabelen worden iteratief geschat door de voorspe llende kwaliteit van het netwerk op de niet geannoteerde voorbeelden te optimaliseren. We tonen aan dat deze categorie van methodes niet geschik t is voor IE uit tekst, omdat de veronderstellingen die deze methoden ma ken niet gelden. Hierna richten we ons op een tweede categorie van zwak gesuperviseerde methoden, waar eerst een ongesuperviseerd model geleerd wordt met niet geannoteerde voorbeelden, en waar dan de statistieken gel eerd door dit model gebruikt worden in een gesuperviseerd machine leer a lgoritme. We ontwikkelen een nieuw ongesuperviseerd taalmodel, het laten te woord taalmodel (LWTM), dat de gelijkenis tussen woorden leert aan de hand van een verzameling niet geannoteerde teksten. We tonen aan dat di t model met een hoge accuraatheid niet eerder geziene teksten kan voorsp ellen. De geleerde gelijkenissen kunnen gebruikt worden om woorden te ex panderen met hun synoniemen, welk zowel het systeem voor disambiguatie a ls het systeem voor het ontdekken van semantische rollen verbetert. Bove ndien is de gebruikte methode algemeen en kan ze gebruikt worden in een grote verzameling andere IE methoden. Het tweede deel van deze thesis behandelt zwak gesuperviseerd leren voor multimodale datasets. We ontwikkelen IE methoden om bepaalde types van informatie te extraheren uit teksten die de inhoud van afbeeldingen of v ideo's beschrijven. De geëxtraheerde informatie wordt dan gebruikt als e en zwakke annotatie van de afbeelding of video. We beginnen met het ontw ikkelen van een methode die voorspelt welke entiteiten in een afbeelding aanwezig zijn aan de hand van de tekst die de afbeelding beschrijft. We ontwikkelen hiervoor twee nieuwe heuristieken. De salience heuristiek m odelleert de belangrijkheid van een entiteit in de tekst, aan de hand va n de positie van die entiteit in de gehele tekst en in de zin. De visual ness heuristiek modelleert de kans dat een entiteit visueel kan worden w aargenomen, welke op een nieuwe manier wordt bekomen uit de WordNet data base. Deze heuristieken resulteren gecombineerd in een nauwkeurige voors pelling van de aanwezige entiteiten in de afbeelding. We tonen ook hoe d it model gebruikt kan worden om de correspondentie te leren tussen namen in de tekst en gezichten in de afbeelding, en om te zoeken naar afbeeld ingen met een bepaalde entiteit. We breiden deze aanpak uit naar de annotatie van video's. We ontwikkelen een systeem voor het detecteren van visuele semantische rollen van visu ele werkwoorden, i.e. acties en argument die geobserveerd kunnen worden in de video. De automatisch ontdekte acties en argumenten worden hierna gebruikt om een systeem te trainen dat deze actie en argument automatisc h ontdekt in een video. Een tweede uitbreiding is de automatische annota tie van locaties van scenes in de video. Dit systeem combineert informat ie uit de tekst en de video om de video onder te verdelen in scenes, en een IE algoritme om locaties uit de tekst te extraheren. We ontwikkelen ook een nieuwe manier om locatie labels te propageren van één scene naar een andere, afhankelijk van de similariteit van de scenes in het tekstu ele en visuele domein. Al de ontwikkelde systemen in deze verhandeling werden formeel geëvaluee rd, door ofwel de automatische uitvoer te vergelijken met de manuele ann otatie (voor IE methodes), of door de waarschijnlijkheid van een nieuwe tekst volgens het model te meten (voor de taalmodellen). Voor verschille nde taken behalen we betere (e.g. woord disambiguatie en latent woord ta almodel) of gelijklopende resultaten (e.g. semantische rol labelen) dan de beste state-of-the-art systemen. Voor andere taken zijn we de eersten die deze resultaten voor deze taken formeel evalueren (e.g. annotatie v an visuele entiteiten en annotatie van locaties) en zetten we hiermee ee n competitieve standaard voor toekomstig onderzoek.

Aantal pagina's: 192

Jaar van publicatie:2010

Institutional Repository URL: https://lirias.kuleuven.be/1652499
Handle: 1652499

Toegankelijkheid:Closed

Publicatie

Weakly Supervised Methods for Information Extraction (Zwak gesuperviseerde methodes voor informatie extractie)

Boek - Dissertatie

Auteurs/uitgever

Onderzoekseenheden

Projecten