< Terug naar vorige pagina

Project

Het modelleren van termvariatie in klinische patiëntendossiers

Achtergrond, motivatie en doelstelling van de dissertatie

In de voorbije Jaren werden er steeds meer medische gegevens verzameld, o.a. in de vorm van patiëntendossiers en klinische nota’s. Op basis van deze teksten kunnen grootschalige analyses worden uitgevoerd. De resultaten hiervan dienen o.a. als input voor de automatische identificatie van patiënten die geschikt zijn voor deelname aan bepaalde klinische studies, of om de besluitvorming in een medisch proces te vereenvoudigen. Aangezien deze bestanden grotendeels uit ongestructureerd tekst bestaan, is de ontwikkeling van toepassingen voor de automatische verwerking van klinische teksten (Clinical Language Processing (CLP)) cruciaal om er de nodige informatie uit te halen. De taal die in dit soort teksten wordt gebruikt, is echter sterk gespecialiseerd (Friedmann et al. 2002) en bevat bovendien taalrijke afwijkingen van de standaardtaal, zowel wat betreft de woordenschat als de grammatica. De verwerking van klinische taal blijft dus een gebied waar meer onderzoek noodzakelijk is (Vellupilai et al. 2015, Névéol & Zweigenbaum 2015).

Klinische kennis is geclassificeerd in medische ontologieën, die een gestandaardiseerde woordenschat bieden om klinische concepten uit te drukken. Het linken van van tekst en concepten is dus een van de hoofdtaken van CLP. In recent onderzoek wordt machinaal leren geïmplementeerd (Pradhan 2015) om relevante termen te herkennen. Dit soort technieken is echter afhankelijk van trainingcorpora, maar om privacyredenen is er weinig tekstmateriaal beschikbaar voor onderzoek. Een andere beperking van deze werkwijze is dat vele toepassingen alleen op de herkenning van gestandaardiseerde termen gericht zijn. Informele varianten, zoals afkortingen en alternatieve spellingswijzen, worden op deze manier niet herkend (Henriksson 2014). Het is dus noodzakelijk om verder onderzoek te voeren naar de klinische terminologie op verschillende niveaus van formaliteit. Een structurele beschrijving van lexicale variatie in klinische teksten zal dus een waardevolle bijdrage tot de verbetering van data-gebaseerde methodes kunnen leveren.

Het doel van dit doctoraat is een empirisch onderzoek op basis van de analyse van een corpus van patiëntendossiers van diabetici. De onderliggende hypothese is dat er in een klinisch document eerder voor niet-gestandaardiseerde varianten wordt gekozen, en dat deze keuzes te wijten zijn aan socio-cognitieve factoren. Ten eerste zullen we dus de contexten  die voor deze afwijkingen bepalend zijn, identificeren en ze vervolgens in de vorm van features modelleren. Nadat we deze features op basis van onze dataset hebben gevalideerd, kunnen we ze generaliseren naar andere medische domeinen. Dit onderzoek zal bijgevolg leiden tot een karakterisering van het klinisch Nederlands om de verdere ontwikkeling van CLP te ondersteunen.

References

Friedman, C., Kra, P., & Rzhetsky, A. (2002). Two biomedical sublanguages: A description based on the theories of Zellig Harris. Journal of Biomedical Informatics, 35(4), 222–235.

Henriksson, A., Moen, H., Skeppstedt, M., Daudaravičius, V., & Duneld, M. (2014). Synonym extraction and abbreviation expansion with ensembles of semantic spaces. Journal of Biomedical Semantics, 5(1), 6.

Névéol, A., Zweigenbaum, P., Editors, S., & Yearbook, I. (2015). Clinical Natural Language Processing in 2014 : Foundational Methods Supporting Efficient Healthcare Topics in Clinical NLP. Yearbook of Medical Informatics, 194–198.

Pradhan, S., Elhadad, N., South, B. R., Martinez, D., Christensen, L., Vogel, A., & Savova, G. (2015). Evaluating the state of the art in disorder recognition and normalization of the clinical narrative. Journal of the American Medical Informatics Association : JAMIA, 22(1), 143–54.

Velupillai, S., Mowery, D., South, B. R., Kvist, M., & Dalianis, H. (2015). Recent Advances in Clinical Natural Language Processing in Support of Semantic Analysis. Yearbook of Medical Informatics, 10(1), 183–193.

 

Datum:10 mei 2016 →  16 sep 2019
Trefwoorden:lexical variation, medical language, clinical corpus
Disciplines:Onderwijscurriculum, Linguïstiek, Theorie en methodologie van de linguïstiek, Andere linguïstiek en literatuurwetenschappen
Project type:PhD project