< Terug naar vorige pagina

Project

Een Praktische Oplossing voor OCR in het Perzisch en Arabisch Afdrukken

De komst van computers heeft de mens bevrijd van ingewikkelde en tijdrovende berekeningen. De verdere ontwikkeling van programmeertalen heeft ook de weg vrijgemaakt voor het maken van meer bekwame machines, in die zin dat de opkomst van kunstmatige intelligentie computers heeft uitgerust met de kracht van het versterken van de mens om met een gerust hart wereldwijde communicatie te maken. Een opmerkelijk voorbeeld van een dergelijk gebruik zijn de computerondersteunde vertaalhulpmiddelen (Computer-Assisted Translation (CAT) en Machinevertaling (MT) als de snelste manier om diverse talen weer te geven.

Het huidige onderzoek vormt een essentiële voorwaarde voor een multidimensionale doelstelling, die niet alleen de basis van de vertaalindustrie vormt, maar ook een veeleisende bijdrage levert aan de moderne studie van taal in het algemeen.

Door het zich uitbreidende digitaliseringsproces, dat tot de taken van Digital Humanities behoort, wordt een nieuwe horizon geopend voor de academische wereld om toegang te krijgen tot een verscheidenheid aan bronnen in de vorm van digitale edities ter vervanging van traditionele onderzoeksmethoden. Met behulp van de technologie van Optical Character Recognition (OCR) veranderen digitaal gescande beelden in bewerkbare teksten, die de weg openen voor computers om verdere analyses te maken. Dit is inderdaad OCR, dat de huidige bulk aan data in beeldvorm en de benodigde tekstinvoer voor CAT en MT doorsnijdt. In het belang van OCR zijn er uitgebreide en praktische inspanningen geleverd op het gebied van Latijnse talen, maar aan de kant van het Perzisch en Arabisch, ondanks de rijke impact op de wereldliteratuur, is er geen behoorlijke beweging op dat gebied geweest. Zelfs de kwaliteit van geïntegreerde OCR-systemen voor Latijnse talen in belangrijke CAT-software is niet nauwkeurig genoeg om te rekenen op een foutloze vertaling.

Het huidige onderzoek stelt een nieuw model voor dat Perzisch en Arabisch drukwerk in digitale beeldvorm ontvangt als input en de bewerkbare tekst uittreksels als de output die zelf de vereiste input zou zijn voor het uitvoeren van elke vorm van digitale tekstuele analyse. Wat betreft het gebruik van doorlopende brieven in Perzische en Arabische talen en hun originaliteit en oude geschiedenis, worden brieven in verschillende vormen gebruikt om verschillende emoties en thema's uit te drukken. Zulke variaties zijn te zien in de lengte van elke letter, kort of lang, de curve figuur, enz. Deze verandering in het patroon en de structuur kan worden uitgebreid in de mate dat zelfs de menselijke intelligentie in sommige gevallen niet in staat is om een correcte diagnose te stellen. Als gevolg van dit gevarieerde bereik en de complexiteit in elke klas, moet het ontwerpen van een OCR-systeem voor deze talen onafhankelijk van elkaar worden uitgevoerd en moet rekening worden gehouden met verschillende dimensies

Om dit probleem op te lossen, wordt de beeldclassificatie gemaakt met behulp van Adaptive-Boosting (AdaBoost) machine learning. Bovendien worden in plaats van het gebruik van beeldpixels van tekens, eerst Histogram of Gradient (HOG) en Shape Context functies uit de doelafbeelding gehaald. Deze kenmerken worden gecombineerd en vormen een eenheidsfunctievector. Zowel in de trainings- als in de classificatiefase wordt deze kenmerkvector gebruikt. Opgemerkt moet worden dat alle komende experimenten worden uitgevoerd in de nieuwste versie van de Python-omgeving.

Kortom, de uiteindelijke uitkomst van dit onderzoek zou een OCR-oplossing zijn voor Perzische en Arabische talen met de ondersteuning van de meest gebruikte lettertypen om te voorzien in de vraag van alle geleerden van de twee talen naar het uitvoeren van digitale tekstuele analyse in het algemeen en te integreren in MT en CAT-tools in het bijzonder.

Datum:2 mei 2018 →  2 mei 2022
Trefwoorden:OCR, NLP, CAT tools
Disciplines:Multimediaverwerking, Biologische systeemtechnologie, Signaalverwerking, Onderwijskunde, Literatuurwetenschappen, Theorie en methodologie van de talenstudies
Project type:PhD project