< Terug naar vorige pagina

Project

IOF Proof of concept: CAPTCHA 2.0 Volledig geautomatiseerde verwerking van gescande tekstdocumenten door computers te leren hoe mensen deze analyseren (IOFPOC40)

Het POC-project CAPTCHA 2.0 - Volledig geautomatiseerde verwerking van gescande tekstdocumenten door computers te leren hoe mensen ze analyseren - bouwt verder op de bekende CAPTCHA’s. Deze werden geïntroduceerd om spamaanvallen te voorkomen door uit te buiten dat computervisie de menselijke visiecapaciteit (nog?) niet heeft bereikt, terwijl ze hielpen bij de beeld-naar-tekst omzetting op scans van oude boeken. Mensen zijn inderdaad superieur in het herkennen van tekst uit gecompliceerde lay-outs, of het nu gaat om zetwerk of de kwaliteit van een scan. We kunnen met gemak glossy tijdschriften, tweetalige artikelen of oude manuscripten lezen waarin letters vervormd zijn door vouwen of scheuren. We doen dit door visuele aanwijzingen te combineren met lay-out en taalbegrip. Hoewel Optical Character Recognition (OCR) al bestaat sinds de jaren 90, zijn de prestaties van bestaande tekstherkenningssoftware nog steeds te laag voor bedrijven om het te gebruiken in een volautomatische documentverwerkingspijplijn, voornamelijk vanwege het gebrek aan een toereikend begrip van de lay-out. Dit is precies waar onze PoC in beeld komt.

DIMA ontwikkelde een AI-techniek - Document Segmentation with Probabilistic Homogenity (DSPH) - die de menselijke visuele verwerking van documentafbeeldingen nabootst die, wanneer toegepast vlak vóór OCR, de automatische verwerking van gescande documentafbeeldingen naar een hoger niveau kan tillen. Dit heeft een enorm potentieel voor documentworkflows in de industrie (bijv. automatische verwerking van gescande facturen, loonbrieven, ...) waar menselijke tussenkomst/interpretatie drastisch zal worden verminderd of zelfs verdwijnen.

Het project heeft als doel de technologie op de markt te brengen.
Datum:1 jan 2021 →  31 aug 2022
Trefwoorden:documentanalyse, segmentatie, OCR
Disciplines:Computerwetenschappen
Project type:Samenwerkingsproject