OCR-software: tekstherkenningsprogramma’s in één oogopslag

Gekrabbelde notities of het sportkatern uit de gedrukte krant: bij het verwerken van analoge menselijke informatie loopt elke computer op een gegeven moment tegen zijn grenzen aan. Hier komt optische tekenherkenning, kortweg OCR, om de …

OCR-software: tekstherkenningsprogramma’s in één oogopslag

Texterkennung mit Lupe
  1. Tijdschrift
  2. »
  3. Artikel
  4. »
  5. Software
  6. »
  7. OCR-software: tekstherkenningsprogramma’s in één oogopslag

Gekrabbelde notities of het sportkatern uit de gedrukte krant: bij het verwerken van analoge menselijke informatie loopt elke computer op een gegeven moment tegen zijn grenzen aan. Hier komt optische tekenherkenning, kortweg OCR, om de hoek kijken: het herkent automatisch tekst uit gescande documenten en afbeeldingen, zodat ze kunnen worden gedigitaliseerd en verwerkt . In dit artikel leggen we uit hoe tekstherkenning eigenlijk werkt en geven we een overzicht van de beste OCR-software.

  • Met behulp van optische tekenherkenning kunt u gedrukte documenten omzetten in doorzoekbare en bewerkbare tekstbestanden.
  • OCR-programma’s werken meestal met woordenboeken en kunnen zo verschillende talen herkennen.
  • Goede software voor tekstherkenning hoeft niet automatisch duur te zijn. Er zijn op internet ook veel freeware-programma’s te vinden die uitstekende resultaten kunnen opleveren.

1. wat is OCR software en hoe werkt het?

Mit OCR-Software vom Schreibblock auf den Computer.
Met OCR software breng je je teksten van je schrijfblok naar de computer.

OCR staat voor“Optical Character Recognition” en wordt in het Duits meestal gewoon “tekstherkenning ” genoemd. OCR is een technologie die wordt gebruikt om handgeschreven of gedrukte documenten (zoals gescande pagina’s of visitekaartjes) te digitaliseren. De tekst kan dan elektronisch worden doorzocht, bewerkt of opgeslagen in een compacter formaat .

Om de informatie vanpapieren documenten door de computer te laten verwerken, is het niet voldoende ze gewoon in te scannen. In dat geval is het gewoon een beeldkopie (een zogenaamde rastergrafiek) van het oorspronkelijke document. Hier komt OCR-software om de hoek kijken: die zet de verzameling zwarte en witte punten in verschillende stappen om in woorden en logische zinnen. Zo wordt de afbeelding een bewerkbaar en doorzoekbaar bestand dat u vanaf uw harde schijf of online via de cloud kunt oproepen en daar met een tekstverwerkingsprogramma kunt bewerken.

Goed om te weten: De volledige tekst van de OCR is ook nodig voor de classificatie van (ongestructureerde) documenten. Daarvoor herkent de software de kenmerken, gegevens en afzonderlijke categorieën van een document en bepaalt op basis daarvan automatisch het type.

2. de beste tekstherkenningsprogramma’s voor 2019 in vergelijking

Nog niet zo lang geleden was OCR-software nog erg duur en ingewikkeld in gebruik. Inmiddels is het echter allang een productiviteitstool geworden en is er ook voor particuliere gebruikers een groot aanbod aan krachtige programma’s voor een adequate prijs. In deze rubriek hebben we de beste tekstherkenningsprogramma’s van freeware tot professionele tools voor je op een rijtje gezet.

2.1 FreeOCR

FreeOCR is een gratis tekstherkenningsprogramma voor Windows, gebaseerd op de open source OCR-engine Tesseract. Het programma herkent tekst uit PDF- en TIFF-bestanden en kan ook gescande documenten en gangbare afbeeldingsformaten (bijv. BMP, JPEG, GIF of PNG) openen. Bij het digitaliseren wordt alleen rekening gehouden met de tekst; opmaak wordt genegeerd. De uitvoerbestanden worden in een venster weergegeven en kunnen van daaruit worden bewerkt, naar het klembord worden gekopieerd, als RTF worden opgeslagen of rechtstreeks naar Microsoft Word worden geëxporteerd. Naast Duitse teksten kan FreeOCR ook Engelse, Spaanse of Franse inhoud herkennen.

FreeOCR Screenshot der Bentuzeroberfläche
Overzichtelijk en goed gestructureerd: De gebruikersinterface van FreeOCR.

Goed om te weten: Tesseract ondersteunt talloze talen en schrijfsystemen, waaronder bijvoorbeeld veel Aziatische Fraktur-lettertypen. Als een taalpakket nog niet in FreeOCR zit, kunt u het gewoon installeren vanaf de Tesseract-website. De fabrikant geeft ook instructies over hoe dat moet.

Het gereedschap maakt gebruik van patroonherkenning om de tekst te digitaliseren. U kunt ook afzonderlijke passages of fragmenten selecteren. Dat is bijvoorbeeld erg handig als u bepaalde delen van een pagina wilt uitsluiten.

2.2 Abbyy FineReader

Abbyy FineReader is een krachtig alles-in-één pakket waarmee u alle papieren correspondentie in bedrijven kunt verwerken. De applicatie biedt tal van functies, zoals scan- en conversietools en diverse OCR-tools, waarmee u documenten kunt digitaliseren en beheren zonder gebruik te maken van aanvullende software. De tekstherkenningssoftware kan worden geïntegreerd in alle Microsoft Office-toepassingen en levert een originele weergave van de herkende documenten aan Word.

Abbyy FineReader OCR-Software Scan
De Abbyy FineReader is een PDF-programma met geïntegreerde OCR-functionaliteit.

De tool is uitgerust met ADTR (“Adaptive Document Recognition Technology”), die de structuur en opmaak van documenten met meerdere pagina’s reconstrueert en in kaart brengt in het nieuwe tekstbestand. Volgens de fabrikant moet dit ervoor zorgen dat typen en opnieuw opmaken tot het verleden behoren. FineReader ondersteunt 189 talen en talrijke formaten zoals PDF, HTML, DOC/DOCX, RTF, Word XML, DBF, CSV, TXT of ODT. Het kan ook worden gebruikt om tekst uit afbeeldingen te halen. Vervolgens kunt u deze bewerken met de geïntegreerde tools en bijvoorbeeld instellingen maken voor contrast en helderheid of bewegingsonscherpte en ISO-ruis verwijderen.

Abbyy FineReader Bearbeitungsmöglichkeiten
Het programma zet documenten voor langdurige archivering om in doorzoekbare PDF- en PDF/A-bestanden.

Praktisch is ook de mogelijkheid om macro’s en geautomatiseerde taken in te stellen waarmee u bijvoorbeeld terugkerende taken sneller kunt uitvoeren of individuele opslaglocaties aan documenten kunt toewijzen.

De huidige versie van Abbyy FineReader is beschikbaar in de drie versies

  • Standaard
  • Zakelijk
  • Enterprise (volumelicenties)

worden aangeboden. Deze verschillen voornamelijk wat betreft conversieprocessen en automatiseringsopties.

2.3 OmniPage Ultimate

Ook de tekstscanner OmniPage Ultimate is met zijn conversiefuncties en cloudverbinding vooral gericht op bedrijven. De toepassing heeft een zeer hoge OCR-nauwkeurigheid en herkent de volledige lay-out, ongeacht of deze tabellen, kolommen, afbeeldingen of nummering bevat. De tool ondersteunt alle gangbare Office-toepassingen en meer dan 120 verschillende talen. Voor de digitalisering kunt u elke in de handel verkrijgbare scanner gebruiken (met TWAIN-, WIA- of ISIS-driver) of de documenten fotograferen.

https://www.youtube.com/watch?v=7N-6n_ffGco

OmniPage Ultimate heeft ook tal van andere functies, zoals het markeren van afzonderlijke passages met behulp van trefwoordselectie of het automatisch zwart maken van bepaalde delen van de tekst (bijvoorbeeld persoonsgegevens). De instellingen hiervoor hoeven maar één keer te worden ingevoerd en het programma onthoudt uw invoer.

OmniPage Ultimate kan beeldbestanden in de formaten TIFF, PCX, DCX, BMP, JPG, GIF, PNG en MAX verwerken en decodeert ook PDF-bestanden.

Bijzonder praktisch: met behulp van de geïntegreerde spraaktechnologie kunt u uw documenten zelfs op MP3-compatibele apparaten laten voorlezen.

2.4 ReadIris

ReadIris is een OCR-software die vooral punten scoort door zijn vereenvoudigde gebruikersinterface en gebruiksgemak. De focus ligt op de vier kernfuncties

  • importeren
  • organiseren
  • Omzetten
  • Bewerken

Corresponderende velden leiden u naar de respectieve functie; er zijn dan slechts enkele klikken nodig om de afzonderlijke stappen uit te voeren.

Die OCR-Software ReadIris unterstützt viele Sprachen
ReadIris ondersteunt meer dan 130 talen, waaronder Russisch en Arabisch.

ReadIris ondersteunt meer dan 130 talen (waaronder Russisch, Chinees en Arabisch) converteert afbeeldingen, PDF-bestanden, MS Office-documenten en gescande bestanden en zet deze om in PDF, XLSX, DOCX, ODT, ePub, RTF, HTML, TXT, TIFF, JPEG, PNG of audio on demand. De oorspronkelijke lay-out van het bestand blijft behouden tijdens de conversie.

De fabrikant biedt de software aan in drie versies: PDF, Pro en Corporate, waarbij alleen de laatste extra functies heeft zoals het beveiligen en ondertekenen van PDF’s of het verwerken van documenten in batch. Alle drie de versies zijn echter uitgerust met praktische bewerkingsfuncties zoals herbelichting of vlekverwijdering , waarmee de kwaliteit van de gescande documenten aanzienlijk kan worden verbeterd.

Screenshot von ReadIris Corporate
In ReadIris Corporate kunt u ook digitale handtekeningen aan uw documenten toevoegen.

ReadIris heeft ook een eigen scanmodule en is daarom compatibel met alle TWAIN-scanners (bijvoorbeeld van Brother, Canon of HP) , zelfs zonder externe software. Er is zowel een Windows- als een Mac-versie van de OCR-software.

Tip: werk je met Google Docs, dan heb je geen extra OCR-software nodig omdat de cloud office-oplossing ook een gratis converter bevat. Om online tekstherkenning te gebruiken, hoeft u alleen maar het gewenste document te uploaden naar Google Drive en met de rechtermuisknop op de bestandsnaam te klikken en vervolgens in het contextmenu “Openen met -> Google Docs” te selecteren. Dit maakt een Docs-document aan (in dezelfde map) en past er automatisch de OCR-functie op toe.

Gerelateerde berichten