< Terug naar vorige pagina

Project

Let op mijn woorden! Over de geautomatiseerde voorspelling van lexicale moeilijkheid voor lezers van vreemde talen

Het doel van dit doctoraatsonderzoek is het automatisch voorspellen van moeilijke woorden in een tekst voor anderstaligen. Deze voorspelling is cruciaal omdat een goed tekstbegrip sterk wordt bepaald door woordenschat. Als een tekst een te hoog percentage onbekende woorden bevat, zal de lezer deze tekst waarschijnlijk met moeite begrijpen. Om de anderstalige lezer een goede ondersteuning te bieden, moeten we eerst het aantal moeilijke woorden kunnen voorspellen. Meestal doen we dit handmatig op basis van expertise of voorafgaande woordenschattesten. Dergelijke methoden zijn echter niet praktisch wanneer we lezen in een computergebaseerde omgeving zoals bijvoorbeeld een tablet of een online leerplatform. In deze gevallen moeten we de voorspellingen op een correcte manier automatiseren.

De scriptie is opgedeeld in drie delen. Het eerste deel bevat een systematische studie van de relevante wetenschappelijke literatuur. De synthese omvat 50 jaar onderzoek en 140 peer-reviewed publicaties over het statistisch voorspellen van lexicale competentie in anderstalige lezers. De analyses tonen onder meer aan dat het wetenschappelijk bereik opgedeeld is in twee onderzoeksvelden die weinig met elkaar verbonden zijn. Enerzijds is er een lange traditie van experimenteel onderzoek in vreemdetaalverwerving (SLA) en computerondersteund taalonderwijs (CALL). Deze experimentele studies toetsen voornamelijk het effect van bepaalde factoren (bv. het herhalen van moeilijke woorden of het toevoegen van elektronische glossen) op het leren van ongekende woorden tijdens het lezen. Anderzijds zijn er recente studies in natuurlijke taalverwerking (NLP) die beroepen op artificiële intelligentie om moeilijke woorden automatisch te voorspellen.

Bovendien wijst de literatuurstudie op enkele beperkingen die in dit doctoraatsonderzoek verder bestudeerd werden. De eerste beperking is het tekort aan gecontextualiseerde maten en voorspellingen. Hoewel we weten uit onderzoek dat de context waarin een woord voorkomt een belangrijke factor is, worden voorspellingen vaak gemaakt op basis van onder meer geïsoleerde woordenschattesten. De tweede beperking is het tekort aan gepersonaliseerde maten en voorspellingen. Hoewel onderzoek in vreemdetaalverwerving aangetoond heeft dat er veel verschillen zijn tussen anderstalige lezers, maken recente studies in artificiële intelligentie voorspellingen op basis van geaggregeerde data. De laatste beperking is dat het merendeel van studies (74%) focust op Engels als vreemde taal. Het doel van dit doctoraatsonderzoek is bijgevolg een gecontextualiseerde en gepersonaliseerde aanpak en een focus op Nederlands en Frans als vreemde taal.

Het tweede deel bekijkt twee maten van lexicale moeilijkheid voor anderstalige lezers. Enerzijds wordt er onderzocht hoe woorden worden geïntroduceerd in didactisch leesmateriaal gelabeld met ERK niveaus. Deze studie introduceert een nieuwe gegradueerde lexicale databank voor Nederlands, namelijk NT2Lex (Tack e.a., 2018). Het vernieuwende aan deze databank is dat de frequentie per moeilijkheidsniveau werd berekend voor de betekenis van elk woord, gedisambigueerd op basis van de zinscontext. De resultaten tonen echter aan dat er belangrijke inconsistenties zijn in hoe etymologisch verwante vertalingen voorkomen in de Nederlandse en Franse databanken. Daarom lijkt deze moeilijkheidsmaat nog niet valide als basis voor een geautomatiseerd systeem.

Anderzijds wordt er onderzocht hoe anderstaligen zelf moeilijke woorden percipiëren tijdens het lezen. De perceptie van moeilijkheid is belangrijk te voorspellen want de aandacht van de leerder is een bepalende factor in het leerproces (Schmidt, 2001). De studie introduceert nieuwe data voor lezers van Frans. Een belangrijk doel van deze data is om correcte voorspellingen te doen voor alle woorden in de tekst, wat contrasteert met studies in vreemdetaalverwerving die focussen op een beperkt aantal (Mdn = 22) doelwoorden in de tekst. Bovendien tonen de analyses dat de data kunnen worden gebruikt om een gepersonaliseerd en gecontextualiseerd systeem te ontwikkelen.

Het laatste deel bekijkt twee types voorspellende modellen die op voorgenoemde data werden ontwikkeld, namelijk mixed-effects modellen en artificiële neurale netwerken. De resultaten bekrachtigen de idee dat de perceptie van lexicale moeilijkheid voornamelijk kan worden voorspeld op basis van ``word surprisal'', een centraal begrip in de informatietheorie. Verder tonen de analyses aan dat de veelgebruikte prestatiestatistieken (zoals accuraatheid en F-score) gevoelig zijn aan individuele verschillen in percentages van moeilijkheid. Omdat deze daarom niet gepast zijn om voorspellingen te vergelijken voor verschillende leerders, worden de D en Phi coëfficiënten gebruikt. Bovendien tonen de resultaten duidelijk aan dat een gepersonaliseerd model significant betere voorspellingen maakt dan een niet-gepersonaliseerd model. Anderzijds tonen de resultaten aan dat een gecontextualiseerd model moeilijkheid beter kan discrimineren, alhoewel deze verbeteringen zijn niet altijd significant zijn voor elke leerder.

Datum:1 okt 2016 →  25 jun 2021
Trefwoorden:receptive lexical competence, foreign language learning, predictive modelling
Disciplines:Nederlandse taal, Natuurlijke taalverwerking, Taalverwerving, Franse taal, Educatieve technologie, Machine learning en besluitvorming
Project type:PhD project