< Terug naar vorige pagina

Publicatie

Extracting fine-grained events and sentiment from economic news

Boek - Dissertatie

Om de uitgebreide kennis uit geschreven taal bruikbaar te maken voor computersystemen, beogen informatie-extractie systemen binnen het domein van de natuurlijke taalverwerking om gestructureerde informatie over feiten en meningen te bekomen uit ongestructureerde tekst. Gebeurtenis-extractie enerzijds, is het automatisch verzamelen van het feitelijke : het `wie, wat, waar, wanneer, waarom en hoe' van recente gebeurtenissen uit nieuwsartikelen of sociale media. De verwerking van subjectieve meningen anderzijds, wordt uitgevoerd door sentimentanalysesystemen, waarbij positieve of negatieve attitudes worden blootgelegd over producten, personen of organisaties. Dit proefschrift presenteert de constructie van een uitgebreid corpus voor fijnmazige gebeurtenis-extractie en sentimentanalyse in economisch nieuws, genaamd SENTiVENT. Onze nieuwe databron werd gevalideerd met experimenten in machinaal leren waarop we huidige diep lerende modellen hebben toegepast om de haalbaarheid van onze taak te controleren. We definiëren economische gebeurtenissen als prototypische schemata waarin woorden die een gebeurtenis uitdrukken (bv. productuitgaves, inkomstenstijgingen, waardebewegingen van effecten, akkoorden) worden gekoppeld aan de personen, bedrijven en entiteiten die een rol spelen in de gebeurtenis (bv. een product, de mate van stijging van de aandelenkoers, de betrokken bedrijven bij een deal). Het verwerken van gebeurtenissen in financiële teksten is in het verleden grotendeels gebaseerd op kennis- of patroongedreven methoden die afhankelijk zijn van grotendeels handmatig gemaakte regels voor het koppelen van woordgroepen met gebeurtenissen. Andere opstellingen steunden op benaderende heuristieken voor het automatisch verzamelen van gebeurtenisuitdrukkingen, zoals de aanwezigheid van data of overeenkomst met bestaande regelsets. Deze grote afhankelijkheid van kennisgebaseerde methodes is komt door een gebrek aan gouden standaard geannoteerde data in het gebied van financiële gebeurtenisverwerking. Fijnmazige sentimentanalyse acherhaalt welke houding wordt uitgedrukt naar een doelentiteit. Het veld is voornamelijk gericht op door gebruikers gegenereerde en opiniërende tekstgenres waarin het sentiment expliciet wordt uitgedrukt, zoals productbeoordelingen of sociale media. In objectieve genres, zoals zakelijk nieuws, zijn indirecte uitdrukkingen van impliciet sentiment echter gebruikelijk. Een positieve of negatieve houding wordt door de lezer worden afgeleid door gezond verstand, connotatie of wereldkennis. Het gebied van impliciete sentimentanalyse mist momenteel fijnmazige bronnen waarin de opinie- en doelentiteitswoorden worden aangeduid met hun impliciete sentimentwaarde. Financiële markten blijken bijzonder gevoelig te zijn voor nieuws en opiniërende berichtgeving en daarom is zijn veelomvattende sentimentanalysesystemen belangrijk voor financi\"{e}le toepassingen. De combinatie van fijnmazige extractie van gebeurtenissen en hun impliciet beleggerssentiment in bedrijfsnieuws maakt financiële toepassingen mogelijk zoals aandelenvoorspellingen, het identificeren van macro-economische trends, en economische gebeurtenisstudies. Om data-gedreven, gesuperviseerde extractie van economische gebeurtenissen en impliciet sentiment mogelijk te maken, is een aanzienlijke hoeveelheid annotaties nodig. We hebben een representatief Engels corpus samengesteld dat handmatig werd geannoteerd met een nieuw annotatieschema. Meer dan 6200 gebeurtenisschema's werden verkregen in 288 bedrijfsspecifieke nieuwsartikelen voor 18 economische gebeurtenistypes. Vervolgens annoteerden we de positieve, neutrale of negatieve waarde van het beleggerssentiment bovenop deze gebeurtenissen en voegden we aparte opinie- en doelwoordannotaties toe. Zo verkregen we een van de grootste fijnmazige sentimentdatabronnen met 12.400 veeltallen van . Na het verifiëren van de kwaliteit van de annotaties in overeenstemmingstudies, pasten we diep machinaal lerende modellen die goede prestaties haalden toe op vergelijkbare taken om de overdraagbaarheid van deze methoden te controleren op onze dataset in fijn- en grootmazige experimenten. Voor de grootmazige experimenten hebben we onze woordniveauannotaties voorbewerkt tot zin- of bijzinniveau voor eventdetectie of impliciete sentimentwaardeclassificatie, hetgeen goede resultaten opleverde. De fijnmazige extractie van abstracte semantische categorieën op woordniveau, zoals economische gebeurtenissen en impliciet sentiment, bleek een grote uitdaging, zelfs voor de huidige geavanceerde, transfer-learning methoden op basis van transformerarchitecturen. Foutenanalyses hebben aangetoond dat onze dataset grotere lexicale variatie bevat binnen geëxtraheerde categorieën. Dit benadrukt een zwakte van strikt gesuperviseerde data-gedreven benaderingen: ook al is onze dataset vergelijkbaar of groter dan de huidige referentiesets voor de fijnmazige taken, kennisgebaseerde en afstandelijk gesuperviseerde methoden voor bijvoorbeeld verbetering en uitbreiding moeten worden geïntroduceerd om de dataschaarste te verlichten. We concluderen dat het SENTiVENT corpus uitgebouwd in dit werk resulteert in een kwalitatieve en rijke bron die tegemoetkomt aan de behoefte van data-gedreven benaderingen voor het verwerken van financiële gebeurtenissen en impliciete sentimenten.
Jaar van publicatie:2021
Toegankelijkheid:Embargoed