Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OZE, bzw. OCR von englisch Optical Character Recognition) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.
Ursprünglich gab es dazu eigene OZE-Schriften, die z.B. für das Bedrucken von Scheckformularen verwendet wurden. Dabei wurden die OZE-A und OZE-B für gedruckte Schriften verwendet, während die OZE-H für handgeschriebene Zeichen galt. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OZE-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. Diese Geräte setzten sich aber gegenüber Barcodelesern nur in Teilbereichen durch, da die Fehlerhäufigkeit sehr hoch und die Leser sehr teurer waren.
Die gestiegenen Leistungen moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von "normalen" Druckerschriftarten bis hin zu Handschriften (z.B. bei der Briefverteilung).
Die zu erkenndende Textvorlage wird per Scanner oder Videokamera in eine Bilddatei (Rastergrafik) umgewendandelt. Diese Bilddatei wird nun der Texterkennungssoftware zugeführt. Die vergleicht die in der Datei auftretenden Pixelmuster mit Mustern in einer Datenbank und gibt anschließend den Text in der gewünschten Codierung (z.b.ASCII) als Textdatei aus.
Auf diese Weise können die im Text enthaltenen Informationen von anderen Programmen weiterverarbeitet werden.
Wie nahe das Ergebnis an das Original herankommt, hängt von mehreren Faktoren ab:
Wiedergewinnen der Textinformation um diesen mit Hilfe einer Textverarbeitung weiter zu bearbeiten und/oder elekronisch durchsuchbar zu machen
Erkennung von relevanten Merkmalen (z.B. Postleitzahl, Vertragsnummer, Rechungsnummer) zur mechnischen(Poststrasse) oder eletronischen(Workflow-Management-System) Einsortierung des Schriftstückes
Erkennung von Merkmalen zur Registrierung und ggf. Verfolgung von Gegenständen (z.B. Autonummern).
Bezugsmöglichkeiten
Im professionellen Umfeld hat man eine Anzahl (teilweise hochpreisiger) Anbieter zur Auswahl. Hier geht es insbesondere um treffsichere Massenverarbeitung (z.B. für die elektronische Rechnungsbearbeitung)
Im Privatbereich liegen oft den Scannern bereits entsprechende Softwarepakete bei, die den Gesamttext umwandeln und zur Weiterverarbeitung aufbereiten.
Programme
Kooka ist ein Scan- und OZE-Programm für die grafische Benutzeroberfläche KDE für Linux
Recognita
EASYWARE
Elektronische Archivierung und Dokumentenmanagement (DMS)
LEADTOOLS
Eine umfassende Hilfprogrammpalette zur Verarbeitung von Raster- und Vektorgrafiken
IrisPen II USB
Datenhamster schluckt jetzt auch Strichcodes und handschriftliche Zahlen
FormTool Scan & OCR
Die professionelle Komplettlösung für elektronische Formulare
Paperport Scanner Suite
Schnäppchen-Bundle: Paperport Deluxe Software 5.3 kombiniert mit Pro OCR 100
Dieser Beitrag ist aus der XML-Version der deutschen WikiPedia® entwickelt worden und unterliegt inhaltlich den GNU FDL-Lizenzbestimmungen. Linkziele außerhalb der wikipedia-Inhalte unterliegen den Urheberrechten der jeweiligen Anbieter
( DirectDownloads ) Kalenderblätter druckfertig aufbereitet für Schmuckblätter zum Selbstdrucken im Word DOC6/RTF Format, je Euro 5 über Click&BuyJAN | FEB | MÄRZ APRIL | MAI | JUNI JULI | AUG | SEPT OKT | NOV | DEZ
Das Geschenk für jeden Anlass, nicht nur bei 'runden' Jubiläen Andere Einzeltage oder Zahlungsarten bitte HIER bestellen
Diese Web Site verdient ihr Geld durch Produktverkäufe (CD-ROM, downloads) und in erster Linie durch Anzeigen. Wenn Sie als Webmaster zuverlässige Partner suchen für Ihr eigenes Anzeigenschäft, dürfen Sie sich gerne auf unsere Empfehlungen stützen:
z.B.: GigaCash & ProfiWin