OCR steht für Optical Character Recognition. Solche Programme analysieren gescannte Texte und erkennen die Buchstaben durch Vergleich mit gespeicherten Mustern oder anhand charakteristischer Zeichenmerkmale. OCR-Software wandelt die Buchstabenbilder in Daten um, die von Textprogrammen erkannt und bearbeitet werden können.
5.1. Vorgehensweise
Bevor editierbare Zeichen entstehen, muß das Programm die Vorlage in Absätze, Zeilen und Einzelzeichen aufteilen. Wenn wir ein Druckbild als sauber anerkennen so ist es für ein Zeichenerkennungsprogramm noch lange nicht frei von Fallen und Schwierigkeiten. Das beginnt bei der Zeilentrennung, wenn der Abstand der Textzeile sehr gering ist und sich die Unterlänge mit der Oberlänge des Zeichen der nächsten Zeile überschneiden. Eine Zeilenschräglage von ein bis zwei Grad liegt meistens innerhalb der Toleranzgrenze. Stärkere Winkel führen jedoch zu argen Differenzierungsproblemen, weil die Schräglage durch Drehen der Bitmapvorlagen zu beseitigen ist. Nach der Aufgliederung in Absätze und Zeilen erfolgt die Separation in einzelne Zeichen. Ein anderes Problem ergibt sich bei engstehenden Schriften. Dabei kann ein rn oder ri schnell zum m werden. Hier wird daher die Fuzzy Logic eingesetzt.
Wenn herkömmliche Algorithmen nicht ausreichen setzt man diese Logik ein. Sie erfaßt nämlich auch Mehrdeutigkeiten. Das heißt es werden für ein problematisches Zeichen mehrere Muster bereit gestellt. Es wird nicht mehr streng nach der Kategorie eines Zeichens geordnet, sondern es werden die absoluten Wahrheitswerte (True, False) durch eine \"linguistische Variable ersetzt. Diese Variable kann jetzt dehnbare Beschreibungsgrößen annehmen, wie:
\"eher geradelinig\", \"eher gebogen\", stark verschlungen\", \"eher breit\" oder \"Strichbeginn oder Strichende\". Eine leichte Abweichung in der erkannten Merkmalsmenge führt bei der herkömmlichen Logik zu einem völligen Versagen beim Erkennen. Bei der Fuzzy-Technologie wird zum Beispiel bei einem leicht gebogenes, etwas breiteres Zeichen ohne Anfang und Ende auf eine Null oder O entschieden.
5.2. Erkennungsverfahren
Die klassische Bearbeitung der grafischen Pixelmuster bzw. Umrisse unterscheidet zwei grundlegende Methoden: - die Mustererkennung (Pattern Matching) und
- die Umrißerkennung (Feature Recognition).
Alle Verfahren stoßen aber an ihre Grenzen, sobald sich die einzelnen Zeichen einer Schrift nicht mehr von einander separieren lassen. Mit der Hand geschriebene Schriften können daher im Normalfall nicht mit einem herkömmlichen Texterkennungsprogramm erfaßt werden.
5.2.1. Mustererkennung
Bei dieser Methode wird das eingelesene Zeichen mit den in einer Tabelle gespeicherten Bitmustern verglichen. Diese Tabelle entspricht dem Font. Dieses Verfahren eignet sich vor allem bei Vorlagen mit hoher Druckqualität, die nur wenige Variationen in der Schriftgestaltung aufweisen, wie zum Beispiel bei Bücher. Jedes gelesene Zeichen wird solange mit den in Frage kommenden Schablonen verglichen, bis die höchstmögliche Übereinstimmung erreicht ist. Um alle gängigen drucktechnischen Ausprägungen eines Zeichens zu berücksichtigen, müßten eigentlich für jeden Buchstaben, jede Ziffer und jedes Sonderzeichen Hunderte von Mustern bereitgehalten werden. Eine solche große und rechenintensive Musterbildbank ist jedoch nicht nötig, da spezielle Normierungsverfahren die Gestalt der Zeichen glätten. Dazu werden Schwellwerte definiert, die unwichtige Punkteansammlungen einfach unterdrücken. Der Grad der geforderten Übereinstimmung hängt daher von programminternen Toleranzschwellen ab. Als Faustregel gilt: Je höher die Toleranzgrenzen, desto niedriger die Erkennungsquote. Die Mustererkennung arbeitet nur solange zufriedenstellend, wie sich passende Muster für einen erfolgreichen Vergleich finden lassen. Mustererkennungsmodule sind daher meistens erweiterbar, sodaß man Schablonenbibliotheken mit ausgefallenen Schriften und Sonderzeichen anlegen kann.
5.2.2. Umrißerkennung
Dieses Verfahren analysiert die geometrischen Eigenschaften der Zeichen, indem es die Umrißlinien auf einfache geometrische Figuren reduziert. Bei der Umrißerkennung keine Pixelschablonen zum Vergleich herangezogen, sondern verschiedene mathematische Algorithmen, die den jeweils typischen Verlauf der Umrißlinien beschreiben. So läßt sich ein geschlossener Kreis als O interpretieren und zwei miteinander verbundene Bögen, also oval lassen auf eine NULL schließen. Es kommt also darauf an, ob eine Umrißlinie geschlossen ist und in welcher Form und Richtung sie gekrümmt ist. Beim C zum Beispiel verläuft die Krümmung konvex und nach links. Unterschiedliche Zeichengrößen bereiten bei dieser Erkennungsmethode natürlich keine Schwierigkeiten, weil sie ihren grundsätzlichen Verlauf beibehalten. Fettgedruckte Zeichen werden in ein Pixel breite Linien umgewandelt und so ebenfalls auf die Umrißgestalt reduziert. Fehlinterpretationen sind jedoch auch hier nicht auszuschließen, denn ein C kann schnell durch Verschmutzung zu einem O werden. Die Lesegenauigkeit hängt zwar auch bei der Umrißerkennung von der Druckqualität, den Zeilen- und Zeichenabständen ab, doch ist dieses Verfahren wesentlich universeller einsetzbar, wenn auch schwieriger zu programmieren.
5.2.3. Feature Extraction
Diese Texterkennungsmethode ist noch relativ jung. Die Pixelstruktur eines Zeichens wird hier nicht mit einem Muster verglichen, sondern mit Hilfe typischer Zerlegungsmerkmale einer bestimmten Merkmalsgruppe zugeordnet. Die Einstufung eines Zeichens geht zunächst von der Anzahl seiner Bestandteile aus. So gehört ein O genauso wie ein L und ein U in die einteiligen Zeichen . I und Ü sind zweiteilig, und ein A zählt wegen seiner drei strichförmigen Bestandteile zu den dreiteiligen Zeichen. Die Mehrheit der einteiligen Zeichen wird weiter unterteilt in solche, die über mindestens eine Rundung verfügen und solche die dieses Merkmal nicht aufweisen. Ein P und ein Q gehören zur Untergruppe mit einem Zyklus, ein 7 hat keinen und ein 8 hat zwei Zyklen. Weiter Untergruppen ergeben sich aus der Zählung der Öffnungen. Auch die Richtung, in die diese Öffnungen weisen dienen als Klassifikationsmerkmal. Zum Beispiel haben V und K eine Öffnung nach oben. Alle Klassen müssen so strukturiert sein, daß sich jedes Zeichen zweifelsfrei zuordnen läßt.
Die Winkelschnittanalyse legt Raster aus parallelen Streifenscharen über ein Zeichen und leitet daraus mathematische Funktionen ab, die dann zur eindeutigen Bestimmung des aktuellen Zeichens herangezogen werden.
5.2.4. Topologische Analyse
Auch dieses Analyseverfahren zerlegt das betreffende Zeichen, und zwar in Kreise und Linien, deren typische Anordnung mit gespeicherten Beschreibungen verglichen wird. Wie alle anderen Verfahren bewältigt sie unterschiedliche Ausprägungen eines Zeichens und gleicht zumindest geringfügige Verschmutzungen aus.
|