< Terug naar vorige pagina

Project

Tokengebaseerde distributionele vectoren als betekenisdiagnostiek in de lexicale lectometrie

Typegebaseerde distributionele semantiek zoals belichaamd in vectorruimte-gebaseerde modellen, is een succesvolle methode gebleken voor het verzamelen van bijna-synoniemen in grote corpora. Deze woorden worden vervolgens gebruikt als varianten van lexicale sociolinguïstische variabelen (b.v.: return en winst voor het concept PROFIT) in lectometrisch onderzoek, i.e. de studie op geaggregeerd niveau van lexicale afstanden tussen taalvariëteiten, en in het bijzonder van pluricentrische talen zoals het Nederlands. Een nadeel van typegebaseerde vectorruimtemodellen is echter dat alle betekenissen van een woord worden samengevoegd tot één vectorrepresentatie, waardoor het moeilijker wordt om rekening te houden met polysemie en subtiele contextuele verschillen. Bovendien werken deze typegebaseerde vectorruimtemodellen op het niveau van het lexeem en kunnen ze niet de relevante corpus attestaties selecteren die de input zijn voor de lectometrische afstandsberekeningen.

Het hoofddoel van dit doctoraatsproject is om tokengebaseerde vectorruimtemodellen te introduceren in lexical lectometrisch onderzoek, zodat we betere semantische controle kunnen uitoefenen tijdens de samenstelling van lexicale variabelen. Tokengebaseerde modellen pakken de bovengenoemde tekortkomingen aan door verschillende betekenissen van lexicale varianten te onderscheiden. Deze techniek kan de betekenis van afzonderlijke tokens (“gebruiksattestaties”) van een woord in een corpus modelleren en deze als tokenwolken in een multidimensionale vectorruimte weergeven, met clusters van voorkomens die verschillende betekenissen van het woord aan het licht brengen. Door de tokenwolken van de lexicale varianten over elkaar te projecteren, kan men nagaan welke betekenissen door de twee bijna-synoniemen worden gedeeld en zo de "semantische variatie-enveloppe" van de lexicale alternantie bepalen. Ter adstructie: de variant return is polyseem in het Nederlands Nederlands, met de twee betekenissen "winst" en "terugmatch", maar niet in het Belgisch Nederlands, waar het woord alleen in de betekenis "winst" wordt gebruikt. Door de cluster van tokens te isoleren met de betekenis "winst" kan men de synonieme attestaties van de varianten winst en return identificeren.

De verfijning van vectorruimte-gebaseerde lectometrie nagestreefd in dit doctoraat draagt bij tot het opschalen van lexicaal-variatieonderzoek, door technieken aan te bieden voor het onderzoek naar corpora waarvan de omvang doorgedreven manuele analyse verhindert. Tegelijkertijd voldoen tokengebaseerde modellen aan de behoefte om gedetailleerde semantische analyse uit te voeren, door toe te staan in te zoomen op het gedrag of individuele tokens om subtielere contextuele verschillen te bepalen. Dit doctoraatsproject maakt deel uit van een groter onderzoeksproject ("Nephological Semantics – Using token clouds for meaning detection in variationist linguistics", BOF C1-project 3H150305) dat gericht is op de exploratie van tokengebaseerde vectorrepresentaties voor lexicaal, semantisch en variationeel onderzoek.

Datum:1 okt 2015 →  31 okt 2019
Trefwoorden:vector space models, lectometry, lexical variation
Disciplines:Theorie en methodologie van de literatuurwetenschappen
Project type:PhD project