BIQE HTR Software

Handwritten Text Recognition

Moeilijkheden OCR handgeschreven documenten

De OCR herkenning van geschreven teksten is niet eenvoudig. Het handschrift van iemand kun je niet onderbrengen onder een bepaald lettertype zoals Times New Roman, Calibri of Arial.

Ieder handschrift heeft de eigen unieke eigenschappen van de persoon die de pen ter hand nam of in oude dagen zijn of haar een ganzenveer in een inktpot doopte.

Ook zijn handgeschreven documenten meestal niet geschreven op lijntjespapier, waardoor de woorden die bij elkaar horen vaak niet precies op dezelfde hoogte in de regel staan. Dit heeft te maken met de juiste segmentaties van regels; de OCR herkenning bij een handgeschreven document weet vaak niet welke woorden bij elkaar horen of achter elkaar op dezelfde regel moeten staan, om tot een juiste herkenning te komen van een handgeschreven tekstdocument. Hiervoor wordt een techniek toegepast, de zogenaamde segmentatie. De uitdaging hierbij is om deze segmentatie zoveel mogelijk AUTOmatisch te verwerken.

Een ander probleem met OCR van een handschrift document is, dat niet iedere pagina altijd dezelfde opmaak of lay-out heeft. Soms staat er op een pagina een foto met wat begeleidende tekst, soms heeft een pagina alleen tekst, of een combinatie van zowel tekst als foto’s.

Het is voor het beste OCR resultaat bovendien van belang dat de tekst van die verschillende pagina’s op de juiste wijze leesbaar geroteerd is. Meestal gebeurt dat tijdens het scannen, maar soms is dat niet mogelijk.

BIQE HTR software pakt deze issues wel aan.

Kunstmatige Intelligentie en Machine Learning

Kunstmatige Intelligentie (of Artificial Intelligence) wil zeggen dat we computersystemen iets laten doen waar ‘normaal gesproken’ natuurlijke of menselijke intelligentie voor nodig was. De Artificial Intellgence (AI) stelt computersystemen in staat om ‘zelfstandig’ acties te ondernemen die leiden tot het doel dat de gebruiker van deze AI of ontwikkelaar ermee heeft. AI toepassingen zijn heel divers; van Google Search, tot het bekende filmkanaal Netflix, maar ook de filmpjes en muziek op YouTube, of Siri en Google Assistent. En natuurlijk het bekende ChatGPT.

Machine Learning is een onderdeel van AI, dat gericht is op het onderzoeken van statische algoritmen.

Voorbeeld:
Stel je hebt een boek uit 1800 van 500 bladzijden die je doorzoekbaar wilt maken (OCR-en). Dan train je zo’n boek d.m.v. Machine Learning. Hoe? Door de tekst van die 50 images in te typen in een bepaald programma. Vervolgens ga je die 50 images samen met de 50 bladzijden getypte tekst d.m.v. ML trainen. Uit deze training ontstaat een taalmodel. Dat taalmodel kun je dan weer toepassen op die overige niet getypte 450 pagina’s met dat getrainde taalmodel. Die 450 pagina’s worden dan automatisch ge-OCR-ed. Zo train je met ML en leert deze ML om algemene conclusies te trekken uit soortgelijke onbekende gegevens.  

Er is nogal wat verwarring over of Machine Learning hetzelfde is als Datamining. Het grootste verschil is echter dat Datamining wordt gebruikt om de wetmatigheden of regels uit grote hoeveelheden data te halen, terwijl Machine Learning een computer leert hoe hij moet leren om de gegeven parameters beter te kunnen begrijpen. Ofwel, datamining is een onderzoeksmethode om aan de hand van de verzamelde gegevens een bepaalde uitkomst te bepalen.

BIQE HTR maakt gebruik van Kunstmatige Intelligentie maar ook van Machine Learning om de moeilijkheden die er zijn bij de OCR van handgeschreven documenten op te lossen. Hieronder vindt u enkele features die we hebben ontwikkeld om het beste OCR resultaat te bereiken voor al uw handgeschreven documenten.

Features BIQE HTR Software

  • AUTOMATISCHE ROTATIE

De eerste en belangrijkste stap in de OCR van documenten is het scannen. Dat betekent minimaal scannen op 300dpi en het liefst in kleur, zodat er zoveel mogelijk pixelgegevens bewaard blijven om te bewerken.

Soms is het materiaal door anderen al B&W gescand op 150dpi, of is het scheef gescand, op de kop gescand of 90 graden of meer gedraaid. Dan raden we u aan om BIQE PROduction of BIQE Archive te gebruiken om de images te verbeteren. Wij kunnen B&W gescande images weliswaar niet veranderen in kleuren images, maar we kunnen met onze 39 imagesfilters verder wel nagenoeg alles aan uw images verbeteren.

Het uiteindelijke doel van de imagefilters is om de geschreven tekst zodanig te verbeteren, zodat het hoogste mogelijke herkenningspercentage wordt behaald.

Onze software herkent of uw afbeeldingen geroteerd moeten worden. Met onze BIQE OCR Server of met onze BIQE HTR worden onjuist geroteerde afbeeldingen automatisch correct geroteerd. Een goed geroteerd document zal de algehele OCR-kwaliteit aanzienlijk verbeteren.

  • SEGMENTATIE

Bij getypte letters heeft u meestal geen last van segmentatieproblemen omdat alle woorden keurig recht op een regel staan.

Een goede OCR Engine zoals Abbyy zal bij getypte tekst op de achtergrond uw document, voordat deze wordt ge-OCR-ed eerst op de juiste wijze segmenteren. Maar dat is heel anders en veel lastiger bij handgeschreven documenten (zie bovenstaande image).

U zult bij handgeschreven teksten in veel gevallen gebruik moeten maken van een segmentatietool zoals Escriptorium. U kunt dan handmatig de segmentatie van de pagina’s corrigeren, door een segmentatielijn onder, door of aan de bovenkant van de woorden van elke regel te trekken. Dat is een tijdrovend werk.

Vaak hebt u helemaal geen toegang tot segmentatie-opties, omdat de OCR-Engine dat al automatisch voor u doet. Dat is geen probleem bij getypte tekst, maar als u voor HTR ook afhankelijk bent van hun expertise, dan zal de segmentatie en dus het OCR resultaat behoorlijk tegenvallen.

BIQE HTR heeft een uniek algoritme ontwikkeld binnen een zeer hoogwaardige architectuur die het segmentatie probleem in nagenoeg elk handschrift oplost.

Op die segmentatie techniek hebt u weliswaar geen grip omdat dit automatisch op de achtergrond wordt uitvoerd, maar bij BIQE heeft u in ieder geval wel zeggenschap, omdat wij ook voor de segmentatie, maatwerk leveren. We geloven dan ook oprecht dat we het beste algoritme voor Handwritten Text Recongnition hebben ontwikkeld!

  • TAALONAFHANKELIJK

De meeste OCR Engines zullen één taal in een pagina herkennen en het woordenboek van die taal gebruiken. Als er op een handgeschreven pagina meerdere talen voorkomen, bijvoorbeeld Grieks én Latijn, dan zal de OCR van die pagina gevoeliger zijn voor OCR fouten.

BIQE HTR Software is in de eerste plaats taalonafhankelijk. De OCR software weet door kunstmatige intelligentie (AI) welke taal of talen er in een document voorkomen, dus ook als er in een pagina meerdere talen voorkomen. Zo zal BIQE HTR software bij een meertalig document, zoals in ons voorbeeld Grieks en Latijn, de talen automatisch herkennen en naast de juiste OCR taal ook het juiste Griekse en/of Latijnse woordenboek in deze pagina of dit document kiezen en toepassen.

  • PARALLEL PROCESSING OF MULTI-THREADS SYSTEEM

Zoals de naam al doet vermoeden, werkt parallelle verwerking op meerdere processors of cores tegelijk. Deze processors of cores/threads werken onafhankelijk van elkaar om (deel)taken uit te voeren die ze moeten voltooien.

Opgemerkt moet worden dat multithreading niet hetzelfde is als parallelle verwerking. Sommigen denken misschien dat “hoe meer threads, hoe sneller de taak voltooid zal zijn”, maar dat is niet waar. Laten we, om dit te begrijpen, eens kijken naar multithreading voor een single-core processor en voor een multi-core processor.

Processoren met één kern

Op het eerste gezicht lijkt multithreading op een single-core processor contra-intuïtief. Immers, hoe kan één fysieke processor tegelijkertijd meerdere taken uitvoeren?

Zo werkt het:

  1. Taakwachtrij: Het besturingssysteem verdeelt taken in kleine stukjes die threads worden genoemd. Al deze threads worden in een wachtrij geplaatst, wachtend om verwerkt te worden.
  2. Snel schakelen: De processorkern schakelt snel tussen threads, waarbij elke thread korte perioden krijgt. Gedurende deze tijd doet de thread zijn deel van het werk en maakt dan plaats voor de volgende in de wachtrij.
  3. Illusie van multitasking: Door snel tussen threads te schakelen, lijkt het alsof de processor meerdere taken tegelijk uitvoert.Doordat onze BIQE HTR software gebruik maakt van parallelle processen is het mogelijk om die verschillende processen werkelijk gelijktijdig uit te voeren. Dat heet multitasking.

Technologische voordelen:

  • Verbeterde reactiesnelheid: Door snel tussen taken te schakelen, reageert uw computer sneller, vooral bij lichte toepassingen.
  • Efficiënt gebruik van bronnen: Zelfs als de core bezet is door één thread, kunnen andere threads andere processorbronnen gebruiken, zoals cache en geheugen.

Het is belangrijk om te begrijpen dat context wisselen tussen threads extra bronnen vereist, wat het systeem enigszins kan vertragen.

Multi-core processoren

Met processoren met meerdere kernen kun je echt parallellisme bereiken bij het werken met taken, omdat de processor de mogelijkheid heeft om taken over meerdere kernen te verdelen. Dit zorgt ervoor dat het systeem zich niet “verslikt” en zorgt voor een soepele werking en snelle overgang tussen taken. Extra kernen verhogen de algemene prestaties van de processor omdat sommige taken parallel kunnen worden uitgevoerd. Dit wordt multitasking genoemd.

Het is belangrijk op te merken dat niet alle programma’s de belasting effectief kunnen verdelen over meerdere kernen. In zulke gevallen kan het voordeel van een multikernprocessor minder merkbaar zijn.

Bij het ontwerpen van programma’s moet je begrijpen dat het toegestane maximum aantal gelijktijdig uitgevoerde taken niet groter mag zijn dan het aantal processorkernen. Anders zullen we niet alleen de prestaties van het programma niet verhogen, maar ook verlagen door extra contextschakelingen.

Multithreading BIQE

Onze producten (BIQE HTR , BIQE PRO en andere producten) zijn ontworpen en ontwikkeld om maximaal gebruik te maken van alle processorkernen. We gebruiken moderne principes en technologieën om programma’s te bouwen die effectief gebruik maken van moderne multi-core processors.

Zo kunnen onze producten gelijktijdig verschillende documenten of pagina’s verwerken en exporteren naar verschillende formaten (bijvoorbeeld ALTO – XML, JP 2 en TXT ). Dit is vele malen sneller dan wanneer dit werk achter elkaar wordt gedaan.

  • SNEL EXPORTEREN EN DOORZOEKEN IN VIEWER

Als handgeschreven documenten of oude of getypte documenten ge-OCR-ed worden, dan is dat met het doel om deze te doorzoeken. Als het gaat om zeer grote databestanden dan is een gewone viewer vaak niet toereikend. Daarom hebben wij als BIQE een eigen zeer snelle elastic search viewer ontwikkeld.

Onze viewer kunt u naar eigen inzicht en behoefte onderverdelen in folders en sub-folders. Zo kunt u nog preciezer en gedetailleerder selecteren welk hoofdstuk van bijvoorbeeld een boek u of document u wilt doorzoeken of juist wilt uitsluiten van de zoekopdracht. De viewer werkt met de gecombineerde bestandstypen Alto-xml met jp2, die u via onze CMS eenvoudig kunt importeren.

Wilt u meer weten?
Neem gerust contact op, we helpen u graag verder!
info@biqe.biz 

Postadres
Meerweg 17
8313 AK Rutten
Nederland

BIQE HTR Software

  • Windows Software
  • OCR handgeschreven documenten
  • Taalonafhankelijk
  • Kwaliteitssoftware

BIQE levert. Ongelimiteerd!
Scannen - Optimalisatie - OCR
Wij zijn uw expert. Vraag het ons!