OCR mit Tesseract

Sonntag 28. Januar 2018 von Torsten

Wer regelmäßger scannt kommt sicher irgendwann auf die Idee ein gescanntes Dokument auch direkt in eine Textverarbeitung zu übernehmen und dort weiterzubearbeiten.

Genau darum geht es in diesem Artikel.

OCR bietet genau diese Möglichkeit und „scannt“ den Text nicht als Grafik sondern als echten editierbaren Text. Dieser Artikel beschreibt die Linux-Lösung per Terminal und dem Programm Tesseract.

Installation von Tesseract

  • Terminalbefehl: sudo apt install tesseract-ocr tesseract-ocr-deu

Nutzung von Tesseract (Terminalprogramm)

Zuerst wird das Dokument normal als Grafik gescannt (etwa mit SimpleScan) und als jpg-Datei gespeicher (hier im home-Verzeichnis).

Tesseract ist ein Kommandozeilenprogramm und wird somit im Terminal gestartet.

Der Befehl lautet: tesseract ocrbild-01.jpg ocrtext-01

Es wird das Programm gestartet und mit Programmname aufgerufen (tesseract).

Die Quelldatei wird mit Dateiendung angegeben (ocrbild-01.jpg).

Der Name für die Zieldatei kann ohne Dateiendung angegeben werden (ocrtext-01).

Tesserect erstellr nun aus der jpg-Grafik eine Textdatei.

Erst wenn im Terminal wieder der leere Promt hinter dem Benutzer erscheint ist das Programm und die OCR Umwandlung abgeschlossen.

Nun ist es möglich den Inhalt der so erstellten Textdatei (unformatiert) in eine Textverarbeitung wie Writer zu übernehmen.

Nach meinen bisherigen Experimenten mit Tesseract ist die Trefferquote schon befriedigend bis gut. Eine Anpassung wird aber immer nötig sein, denn Tesseract erkennt nicht immer alle Buchstaben und Zeichen. Trotzdem erspart diese OCR Anwendung sehr viel Arbeit, wenn man ein editierbares Dokument braucht und die Vorlage auf einem Scan basiert.

Wem die Terminalanwendung nicht zusagt kann auch die Onlineversion nutzen: http://www.free-ocr.com/

Dieser Beitrag wurde erstellt am Sonntag 28. Januar 2018 um 08:00 und abgelegt unter Allgemein. Kommentare zu diesen Eintrag im RSS 2.0 Feed. Sie können zum Ende springen und ein Kommentar hinterlassen. Pings sind im Augenblick nicht erlaubt.

Kommentar schreiben