Project

Distributionele Semantiek en Visual Analytics

Zogenaamde token-niveau distributioneel semantische modellen ook wel word sense induction genoemd in de Computationele Linguïstiek, kunnen gebruikt worden voor gebruiksgebaseerd lexicaal-semantisch corpusonderzoek (Geeraerts 2010, pp. 173-179). Om ze te kunnen gebruiken hebben we echter meer inzicht nodig in hoe deze black box modellen werken en hoe ze gekallibreerd moeten worden naar meer theoretisch gebaseerde (socio)linguïstische vraagstukken.

Dit onderzoeksproject focust op twee aanpakken om meer inzicht te krijgen in Schütze’s (1998) bag-of-words distributionele modellen. De eerste is de statistische aanpak waarbij we een groot aantal verschillende parameterinstellingen evalueren tegen een manueel toegekend betekenislabel. Deze manuele labeling moet gezien worden naar een opstapje naar volledig ongesuperviseerde modellen specifiek getraind voor lexicaal-sematische vraagstukken. Het idee hierbij is om semantische afstanden berekend door ieder model te beoordelen aan de hand van hoe goed tokens die tot dezelfde klasse behoren scheidbaar zijn van de andere. Deze “scheidbaarheids index” wordt vervolgens als responsvariabele in een mixed-effect lineair regressiemodel geplugd, met de parameterinstellingen als verklarende variabelen.

Het tweede spoor behelst een aanpak die complementair is met het statistisch modelleren van de parameterruimte, namelijk visual analytics. Door de semantische ruimte te visualiseren in een meerlagige interactieve spreidingsdiagrammen (scatter plots) geven we ervaren gebruikers toegang tot een 2D benadering van de hoogdimensionele afstandsmatrix die uit elk distributioneel model voortspruit. Door de variabelen van het model visueel te coderen, complexe interacties en selecties kunnen modellen visueel worden vergeleken in een zogenaamde scatterplot matrix. De visualisatietoepassing kan op verschillende manieren worden gebruikt, bijvoorbeeld de geschikte modellen voor een specifiek semantisch fenomeen (bv. polysemie) of om naar het meest gedetailleerde niveau te browsen voor een foutenanalyse of individuele, fout gerepresenteerde tokens.

Referenties

Geeraerts, Dirk. Theories of lexical semantics. Oxford University Press, 2010.

Schütze, Hinrich. "Automatic word sense discrimination." Computational linguistics 24.1 (1998): 97-123.

Datum:15 mrt 2012 → 16 mei 2022

Trefwoorden:lexical semantics, corpus linguistics, distributional semantics

Disciplines:Theorie en methodologie van de literatuurwetenschappen

Project type:PhD project

Project

Distributionele Semantiek en Visual Analytics

Onderzoekers

Project partners

Financiering