OCR-Texterkennung: Begriffsklärung und Notwendigkeit

Wer mit der OCR-Texterkennung arbeitet, spart viel Zeit mit dem Abtippen seiner Dokumente. © Bild 211400978 -Casimiro_PT, depositphoto.com
Wer mit der OCR-Texterkennung arbeitet, spart viel Zeit mit dem Abtippen seiner Dokumente. © Bild 211400978 -Casimiro_PT, depositphoto.com

Die OCR-Texterkennung ist eine Software, die vor allem bei einem Scanner notwendig wird. Denn Sie können mit einem solchen natürlich nicht nur Bilder oder Grafiken scannen und auf einen Rechner übertragen, sondern auch Textdokumente. Da ein Scanner aber „nur“ ein Bild der gescannten Datei erstellt, ist eine Texterkennung notwendig, damit der Text fehlerfrei übertragen werden kann, auch wenn Sie die Datei nicht nur als Bild, sondern als Text, beispielsweise als PDF, speichern und bearbeiten möchten. Die OCR-Texterkennung erfasst die Buchstaben im gescannten Bild und fügt sie als sinnvolle Wörter und Text zusammen, sodass Sie damit weiterarbeiten können.

Inhaltsverzeichnis

OCR-Texterkennung: Definition

Wie eingangs bereits erwähnt, ist die Texterkennung notwendig, da Scanner, Kameras usw. ausschließlich Bilder, d.h. Rastergrafiken, erzeugen. Die Texterkennung dient nun dazu, diese Pixel und Punkte als Buchstaben zu identifizieren und sie in die übliche Textkodierung zu konvertieren. Bei dem OCR-Verfahren (optical character recognition = optische Zeichenerkennung) kommt eine globale Strukturerkennung zum Einsatz, welche Textblöcke von graphischen Elementen unterscheiden kann und dabei sowohl Zeilenstrukturen als auch Einzelzeichen ausmacht. Diverse Algorithmen dienen dabei dafür, auch unterschiedliche Sprachen zu berücksichtigen.

Dabei wurden früher separate Schriftarten verwendet, um die automatische Texterkennung zu erleichtern. Mittlerweile ist die Technik allerdings so weit fortgeschritten, dass zig unterschiedliche Druckerschriftarten und sogar Handschriften identifiziert und verarbeitet werden können. Zudem wurde ein weiteres System zur Kontexterkennung „ICR“ (intelligent context recognition) entwickelt, welches die OCR-Texterkennung unterstützt, sodass falsch erkannte Zeichen im Kontext korrigiert werden können. Beispielsweise ist eine häufige Fehlerkennung eine „8“ statt dem Großbuchstaben „B“. Entsprechend würde ohne die Kontexterkennung aus „Baum“ leicht „8aum“ werden. Die ICR sorgt dafür, dass ebendies nicht passiert. Auf der anderen Seite wird jedoch gewährleistet, dass alphanumerische Begriffe wie „8ter“ aus kontextuellen Gründen nicht umgewandelt werden.

Eine weitere Variante stellt die Texterkennung über die Handschrift beispielsweise auf einem PDA oder ähnlichem dar. Hierbei kommen allerdings vektorbasierte Muster zum Einsatz wie bei der Texterkennung der Software Apple Inkwell, die dazu dient, einen handschriftlichen, auf einer Grafikoberfläche eingegebenen Text in einen digitalen Text zu konvertieren.

OCR-Texterkennung: Vorteile

Die mannigfaltigen Vorteile der OCR-Texterkennung liegen auf der Hand. Was Sie andernfalls händisch eingeben müssten, macht diese Software ganz von selbst und Sie haben weder Mühe noch müssen Sie viel Zeit investieren. Ein Highlight von OCR ist, dass es mittlerweile nicht mehr nur reinen Text erkennt, sondern zudem auch Rechnungen und Barcodes identifizieren und umwandeln kann. Dabei muss das Programm nicht unbedingt teuer erworben werden, sondern Sie können auch kostenlos einen Download diverser Anbieter in Anspruch nehmen.
Tipp: Dabei ist es auch möglich sich für Smartphone, Tablet und Co. eine sogenannte OCR-Texterkennung-App herunterzuladen. Diese gibt es beispielsweise als OCR-Texterkennung von Adobe oder als Freeware.

OCR-Texterkennung: Erklärung der Vorgehensweise

Die Texterkennung mit OCR bietet diverse Vorteile, denn die Software arbeitet selbstständig und ist mitunter sogar lernfähig. © Bild 152679460 -nikolay100, depositphoto.com

Damit Sie besser verstehen können, wie OCR genau arbeitet, möchten wir Ihnen hier die einzelnen Schritte aufzählen, die bei der Texterkennung mit dieser Software eingesetzt werden. Diese werden von sämtlichen Programmen mit OCR-Texterkennung durchgeführt, damit Sie später weiter mit dem Text arbeiten können.

1. Das Einlesen der Seiten

Bevor die Texterkennung ihrer Arbeit nachgehen kann, benötigt sie natürlich eine Datei. Folglich muss zunächst die Vorlage via Scanner als Bild auf Ihren PC übertragen, d.h. gescannt, werden. Sie können Ihren Text auch abfotografieren und so auf Ihren Computer übertragen. Die Hauptsache ist, dass das Dokument gut lesbar ist und Sie es nicht selbst eintippen müssen.

2. Das Zerlegen der Seiten

Egal, ob Sie sich für FreeOCR oder eine kostenpflichtige Version entschieden haben, nach dem Einlesen der eingelegten Seiten, werden diese in Einzelteile zerlegt. Die bei der Erkennungssoftware arbeitende Layoutanalyse stellt fest, wo sich Text und wo sich andere Elemente wie Bilder, Grafiken usw. befinden. Dabei wird bereits der als solcher identifizierte Text in Abschnitte unterteilt. Danach folgt die Zerlegung des Textes in Sätze, Wörter und schließlich Zeichen. Nachdem die Layoutanalyse abgeschlossen ist, ist Ihre Datei in eine Ansammlung von diversen Zeichen umgewandelt. Dabei werden von der Software für die spätere Kontextanalyse Sätze und Wörter gespeichert, um semantische, d.h. inhaltliche, Zusammenhänge zu erschließen und die Texterkennung dahingehend anzuwenden.

3. Das Erkennen von Zeichen

Nachdem die einzelnen Seiten in ihre Bestandteile zerlegt wurden, kommt es im nächsten Schritt zur Identifizierung der Zeichen. An unserem Beispiel weiter oben erklärt, heißt das, die Software muss herausfinden, ob es sich um eine „8“ oder um den Großbuchstaben „B“ handelt. Um dies zu bewerkstelligen, kommen unterschiedliche Verfahren zum Einsatz und werden miteinander kombiniert, um ein bestmögliches Ergebnis zu gewährleisten. Dabei wird in Mustererkennung (Pattern Matching) und Merkmalserkennung (Feature Matching) unterschieden.

4. Das Erkannte als Text zusammenführen

Sind alle Einzelzeichen identifiziert, muss der Text als solches sinnvoll wieder zusammengefügt werden. Dabei wird ein in der OCR-Texterkennungs-Software integriertes Wörterbuch für die entsprechende Sprache verwendet, um Wörter und letztendlich Sätze zu bilden. Es folgt die logische Zusammensetzung von einzelnen Abschnitten, bis der komplette Text vollständig ermittelt und wieder als solcher zusammengefügt wurde. Die weiter oben genannte Layoutanalyse hilft dabei, den Text so zusammenzusetzen, wie er auf der Vorlage zu sehen ist. Zudem kommen diverse Grammatikprogramme zum Einsatz, welche dafür sorgen, dass sinnvolle Sätze und Strukturen gebildet werden.

5. Speichern des fertigen Textes

Sobald die Texterkennung vollständig abgeschlossen und der Text als solcher umgewandelt ist, können Sie die Datei speichern. Das Dokument weist dabei meist das Format „.txt“ oder „.rtf“ auf. Ist der Text gespeichert, können Sie ihn alsdann in PDF, Windows Word oder einem anderen Office-Programm öffnen und weiter bearbeiten.

OCR-Texterkennung: Freeware

Möchten Sie kein Geld für eine gute OCR-Texterkennungssoftware ausgeben, bietet sich der Download von Freeware-Programmen an. © Bild 17857899  alexskopje, depositphoto.com

Wie eingangs bereits erwähnt, gibt es sowohl kostenpflichtige OCR-Texterkennungs-Software als auch Anbieter, die Ihnen das Programm kostenlos als Download anbieten. Dabei ist die kostenpflichtige Texterkennung häufig gar nicht viel besser als die Freeware. Achten Sie jedoch auch hier auf Qualität. Kundenrezensionen können Ihnen hier bei der Entscheidung helfen. Dabei arbeiten die meisten Programme nach dem gleichen, oben erklärten Prinzip.

So bietet Epson für seine Drucker und Multifunktionsgeräte sowohl eine kostenfreie als auch eine kostenpflichtige OCR-Texterkennung an, wobei hier zwischen einer Version für Mac und einer für Windows unterschieden wird. Dabei richtet sich das Programm hauptsächlich an die hauseigene WorkForce-Serie, kann aber auch für andere Drucker verwendet werden. Die Software Document Capture Suite muss nur auf Ihrem Rechner installiert werden, damit Sie sie nutzen können. Beispielhaft möchten wir Ihnen noch weitere Freeware-Anbieter vorstellen.

1. FreeOCR

FreeOCR ist eine der bekannten Texterkennungs-Softwares und wird von vielen Anwendern wahrgenommen. Es erfreut sich gerade aus dem Grund großer Beliebtheit, da es sehr einfach aufgebaut ist. Denn damit ein Text als solcher erkannt wird, müssen Sie bei dieser Software nur wenige Klicks durchführen, wenn Sie eine Grafikdatei oder PDF öffnen. Das Format hängt dabei davon ab, wie Sie den Scan gespeichert haben. Sie finden beide Varianten auf der linken Seite im geöffneten Programmfenster. Wenn Sie im rechten Fenster auf das Kreuzchen klicken, leert sich dieses und die Texterkennung startet.

Dabei können Sie zuvor einstellen, ob ausschließlich die aktuelle Seite der Datei bearbeitet werden soll oder das gesamte Dokument. Sobald Sie alle gewünschten Einstellungen gewählt haben, müssen Sie nur noch auf „Weiter“ klicken und Ihre Datei wurde in einen bearbeitbaren Text umgewandelt.
Bei diesem Programm finden Sie beispielsweise auch die Option „Postprocessing“, welche dafür sorgt, dass Fehlerkennungen wie „VV“ statt „W“ nicht passieren.
Die Software können Sie übrigens auf diversen Portalen kostenfrei herunterladen und installieren.

2. FineReader OCR

Eine besonders fortschrittliche Software bietet ABBYY FineReader OCR. Dabei erkennt das Programm bestimmte Parameter und imitiert sie. Der FineReader arbeitet nach den drei Prinzipien „Einheit, Zweckmäßigkeit und Anpassungsfähigkeit“. Dabei steht „Einheit“ für die Erkennung vieler zusammengehöriger Teile als Ganzes, wobei die Interpretation einem gewissen Zweck dienen (Zweckmäßigkeit) und das Programm selbstständig lernen muss (Anpassungsfähigkeit). Hierbei liegt der Vorteil bei einer Art künstlicher Intelligenz, die dem natürlichen Erkennungsprozess von Objekten nachempfunden wurde.

3. OCR-Texterkennung online

Sie müssen sich allerdings nicht zwangsläufig erst ein Programm herunterladen und installieren, sondern können mittlerweile auch Online-Dienste für die Texterkennung nutzen. Dabei stehen Ihnen zahlreiche Anbieter zur Verfügung. Die OCR-Texterkennung mit PDF-Converter ist dabei ebenso möglich wie Online-OCR, bei welchem Sie die gescannte Datei nur hochladen müssen und das Online-Programm startet die Texterkennung, sodass Sie sie später in Word oder einer anderen Anwendung weiter bearbeiten können. Diese Dienste sind für Sie kostenlos.

OCR-Texterkennung: Apps

Heutzutage wird nicht mehr ausschließlich die Verbindung zwischen PC und Drucker genutzt, sondern vielfach greifen Anwender auch auf die Anbindung an ein Smartphone oder Tablet zurück. Vor allem User, die viel unterwegs sind, begrüßen diesen Fortschritt. Dabei kommen entsprechende Apps zum Einsatz, um die Verbindung zwischen Drucker und mobilen Endgeräten zu ermöglichen. Solche Services sind beispielsweise AirPrint oder Google Cloud Print, die mittlerweile direkt bei vielen Multifunktionsdruckern im Funktionsumfang inbegriffen sind. Eine solche App wird dabei sowohl für Apple als auch für Android und weitere separat angeboten.

Eine Möglichkeit der OCR-Texterkennung für Apple und iPhone ist zum Beispiel der CamScanner. Android- und Apple-Nutzer können aber auch die OCR-Texterkennung Adobe Scan verwenden. Im Google Play Store gibt es für Android-Geräte zusätzlich den Service Textfee.

OCR-Texterkennung anwenden

Wenn Sie ein Dokument nach dem Scannen weiter bearbeiten möchten, bietet sich die Verwendung der OCR-Texterkennung an. © Bild 27801121 -singkham, depositphoto.com

Generell ist die Texterkennung mit OCR kein Hexenwerk und kann auch von ungeübten Nutzern schnell bedient werden. Im Folgenden geben wir Ihnen ein paar Tipps und Tricks an die Hand, welche Sie bei der Konvertierung von Formularen, Rechnungen, Verträgen usw. unterstützen können.

Die Verwendung von OCR-Texterkennung Schritt für Schritt

Allgemein gesprochen arbeitet jede Software nach dem Prinzip „Öffnen > Erkennen > Export“. Wie Sie dabei genau vorgehen, möchten wir Ihnen hier aufzeigen. Dabei sollten Sie beachten, dass dies eine allgemeine Anleitung ist, sich die Programme dennoch ein wenig voneinander unterschieden können.

  • Scannen Sie das betreffende Dokument mit Ihrem Drucker, Scanner oder Multifunktionsgerät.
  • Öffnen Sie die gescannte Datei im Programm. Meist ist dies auch ohne vorheriges Speichern möglich.
  • Nun starten Sie die Texterkennung mit OCR und passen Sie Ihren individuellen Bedürfnissen in den Einstellungen an.
  • Achten Sie darauf, welche Sprache im gescannten Dokument verwendet wird, denn entsprechend müssen Sie auch die OCR-Texterkennung anpassen. Das bedeutet, Sie wählen entweder die OCR-Texterkennung: Chinesisch, die OCR-Texterkennung: Deutsch, die OCR-Texterkennung: Japanisch, die OCR-Texterkennung: Arabisch oder die OCR-Texterkennung: Russisch zum Beispiel. Andernfalls kann es zu falschen Aufschlüsselungen kommen.
  • Die OCR-Texterkennungssoftware arbeitet sich nun selbstständig durch die einzelnen Wortebenen, was, je nach Größe Ihrer Datei, einige Zeit in Anspruch nehmen kann.
  • Sobald die Software die Texterkennung abgeschlossen hat, erhalten Sie eine entsprechende Meldung.
  • Nun liegt es an Ihnen das Dokument noch einmal sorgfältig zu prüfen, denn auch das beste Programm ist nicht fehlerfrei. Vor allem bei ungewöhnlichen Schriftarten kann es hin und wieder zu fehlerhafter Texterkennung kommen.
  • Wenn der Text Ihren Vorstellungen entspricht, können Sie ihn speichern. Dabei können Sie aus verschiedenen Dateiformaten wie PDF, DOC, RTF, XLS, HTML oder TXT wählen.
  • Im Anschluss können Sie das Dokument in diversen Office-Anwendungen wie Word, Excel oder Adobe Acrobat öffnen und weiter bearbeiten.

OCR-Texterkennung: Sinnvoll oder nicht?

Die OCR-Texterkennung richtet sich vor allem an User, die viele Dokumente scannen und im Anschluss bearbeiten müssen. Aber auch, wenn Sie dahingehend nur wenig Bedarf haben, eignet sich beispielsweise eine kostenlose Texterkennung durchaus. Denn so müssen Sie nichts mehr händisch abtippen, sondern können diese Software nutzen und so deutlich Zeit sparen. Wir meinen, ein gutes Programm, das Ihnen Zeit und Geld spart, lohnt sich in jedem Fall.

Druckerpatronen und Toner günstig bestellen!

4 Kommentare

  1. ich habe einen neuen Canon TR8550 Drucker gekauft. Ich würde gerne Textverarbeitung machen. Aber er schaltet immer im PDF Modus. Eigentlich will ich im Word Modus bleiben. Geht das und vor allem wie. Bin leider schon älter. Daher muss ich genaue Schritte sehen wie ich das machen und einstellen kann am Drucker und Rechner. Ich danke Euch

  2. Sehr verständlich und nachvollziehbar für Normalnutzer erklärt.
    Mit hat´s sehr geholfen.
    Vielen Dank!
    Mit freundlichen Grüßen,

Schreibe einen Kommentar zu Joachim Dietermann Antworten abbrechen

E-Mail Adresse wird nicht veröffentlicht.


*