Die 3 besten PDF-OCR-Open-Source-Programme

Nov 06,2019 • Filed to: OCR PDF Dateien • Proven solutions

OCR, kurz für Optical Character Recognition (optische Zeichenerkennung) ist die Methode, bei der eine nicht editierbare Textdatei wie zum Beispiel der Scan einer Dokumentseite oder Ähnliches in ein voll editierbares Textdokument gebracht wird, das angepasst, durchsucht oder anderweitig wie eine normale Textdatei bearbeitet werden kann. Das kann, wie Sie sich vorstellen können, in vielen Situationen extrem nützlich sein, und eine Möglichkeit, das auszuführen, ist mit Open-Source-OCR. Der Vorteil hierbei ist, dass es kostenlos und auf vielen Plattformen leicht erhältlich ist, aber ist es die ideale Lösung, wenn Sie Seiten eines gescannten Dokumentes in etwas verwandeln möchten, das man durchsuchen und bearbeiten kann?

Das beste PDF-OCR-Tool

PDFelement Pro für Mac

PDFelement Pro ermöglicht die erweiterte OCR-Funktion, die Ihnen hilft, bildbasierte und gesannte PDF-Dateien zu bearbeiten und umzuwandeln. Und es werden mehrere OCR-Sprachen unterstützt, um das Arbeiten mit PDF-Dateien noch angenehmer zu machen.

Warum man dieses PDF-OCR-Tool wählen sollte:

  • Erweiterte OCR-Funktion mit mehreren Sprachen.
  • PDF-Dateien einfach bearbeiten und mit Anmerkungen versehen.
  • PDFs in andere Formate konvertieren.
  • PDFs und PDF-Formate ganz einfach erzeugen.
  • Das PDF mit einem Passwort, einem Wasserzeichen und einer Signatur schützen.
den pdf editor 6 professional starten

Teil 1. Empfohlene Open-Source-PDF-OCR-Software

1. Tesseract

Tesseract ist ein wunderbares Open-Source-Programm, das zurzeit von Google gepflegt wird. Es kann auf einer Reihe von Plattformen verwendet werden, inklusive Linux, Windows und OS X. Es schließt den Support für mehrere Sprachen ein, und mit der Fähigkeit, über Erweiterungen noch mehr herunterzuladen, bietet es eine Fülle an Optionen, die fast jedes Projekt abdecken. Jedoch ist es etwas zu kompliziert, was die Vewendung betrifft, und um das Beste aus ihm herauszuholen, braucht man ein gewisses Verständnis des zugrundeliegenden Codes. Beim Gebrauch jedoch produziert es genaue Ergebnisse und kann sich mit diesem Multi-Plattform-Support in den verschiedensten Situationen als nützlich erweisen. Eine eher steile Lernkurve für die Software, doch nachher ist sie sehr leistungsfähig.

tesseract ocr

2. GOCR

Dies ist ein weiteres Open-Source-Paket, das darauf ausgelegt ist, auf Linux, Windows und OS/2-Plattformen zu laufen, wobei es eine große Auswahl für fast jede Situation bietet. Wie bei anderen Open-Source-Beispielen der OCR-Software ist der Prozess präzise und das Paket ist ausbaufähig, jedoch leidet es unter ähnlichen Problemen bezüglich der Benutzerfreundlichkeit. Das unterscheidet sich etwas je nach verwendeter Plattform, wobei bei das Frontend bei manchen benutzerfreundlicher ist als bei anderen. Jedoch erweist es sich bei der Nutzung trotzdem als leistungsfähiges Tool.

gocr

3. Cuneiform

Ursprünglich eine kommerzielle OCR-Lösung, wurde Cuneiform von seinem Entwickler in ein Open-Soure-Programm verwandelt, als die Weiterentwicklung des Projektes aufhörte. Aus diesem Grund ist es nicht die aktuellste verfügbare Lösung, aber dennoch effektiv. Das ist ein mehrsprachiges Programm, das noch heute gut läuft, und wegen seiner kommerziellen Wurzeln kann es einige der Fallstricke anderer Open-Source-Lösungen vermeiden, wie z. B. nicht intuitive Benutzeroberflächen und so weiter. Auch ist es das Programm mit der einfachsten Bedienung von den dreien. Mit mehreren Ausgabeformaten und vielen Anpassungsmöglichkeiten ist es ein gutes Softwareprogramm, auch wenn es heute technisch im Vergleich zu einigen anderen hinterherhinkt.

cuneiform

Vergleich der oben angeführten OCR-Hilfsmittel

Merkmale
Tesseract
GOCR
Cuneiform
Kompatibles Betriebssystem OS X, Windows, Linux Windows, Linux, OS/2 Windows
Sprachen 12 (plus Erweiterungen) 2 20
Dateikonvertierung Forum/Mailingliste Mailingliste Nein
Support Nein Nein Nein

Urteil:

Es gibt keinen Zweifel daran, dass diese Open-Source-Pakete eine Möglichkeit bieten, OCR auf Ihren Dokumenten auszuführen. Jedoch fehlt es allen irgendwo ein bisschen, egal ob es nun um die Einfachheit der Nutzung geht, dass sie auf gewisse Weise veraltet sind oder dass sie die Geschwindigkeit der heutigen Multicore-Prozessoren nicht voll ausschöpfen. Angesichts dessen entscheiden sich viele Leute für umfangreichere kommerzielle Softwarepakete, die ihren OCR-Bedürfnissen gerecht werden, und bei dem umfangreichen Support, der einfachen Nutzung und der Verlässlichkeit ist das wirklich kein Wunder. Open-Source-Produkte haben sicherlich ihren Platz, doch für viele, die auf die Tools angewiesen sind und etwas brauchen, das etwas einfacher zu bedienen ist, lohnen sich die Kosten auf lange Sicht oft sehr.


Teil 2. Erfahren Sie, wann man OCR auf einer bildbasierten PDF-Datei durchführt

Die erweiterte OCR-Funktion im PDFelement Pro hilft Ihnen bei der einfachen OCR-Verarbeitung Ihrer PDF-Dateien. Bitte halten Sie sich an die nachfolgenden Schritte.

Schritt 1. Programm starten

Nachdem Sie das Programm gestartet haben, klicken Sie auf „Datei öffnen“, um die gescannte PDF-Datei in die Software zu importieren. Es wird eine Meldung angezeigt, dass die Datei ein gescanntes PDF ist.

das programm starten

Schritt 2. OCR ausführen

Dan klicken Sie auf die „OCR“-Schaltfläche in der Registerkarte „Bearbeiten“. Sie können das OCR-Bedienfeld auf der rechten Seite der Benutzeroberfläche des Programm öffnen. Nun können Sie den Seitenbereich und die OCR-Sprache individuell einstellen. Klicken Sie dann auf die Schaltfläche „OCR ausführen“, um das gescannte PDF mit OCR zu verarbeiten.

ocr ausführen

Methode 2. OCR ausführen mit dem PDF Converter Pro für Mac

Die beste verfügbare Option für die OCR-Verarbeitung von PDFs ist der iSkysoft PDF Converter Pro für Mac, der ein sehr umfassendes Softwarepaket darstellt, welches nicht nur einfach zu verwendende OCR-Funktionen hat, sondern auch ein eigenständiges PDF-Konvertierungspaket ist, mit einer Fülle an Werkzeugen für die Bearbeitung von PDF-Dateien und die Erzeugung anderer Formate daraus nach Belieben.

Angefangen mit der extrem einfach zu verstehenden Benutzeroberfläche kann der PDF Converter Pro für Mac Ihre Dateien in 17 verschiedenen Sprachen mit OCR verarbeiten, womit er schon standardmäßig den Bedürfnissen der meisten Projekte gerecht wird. Außerdem kann er eine ganze Bandbreite an Formaten einschließlich Word, Excel, Epub (E-Book-Format), Rich-Text und natürlich Klartextdateien ausgeben. Der OCR-Motor ist extrem präzise und und die Software enthält ein Batch-Verarbeitungsmenü, mit dem man OCR auf bis zu 200 Dateien per Knopfdruck ausführen kann. Das ist sehr nützlich für die Ausführung von OCR auf einzelnen gescannten Seiten eines Buches und spart einem viel Zeit.

haupt-interface

Schritt 1. PDFs in das Programm hochladen

Doppelklicken Sie auf das Anwendungssymbol, um das Programm zu starten, und ziehen Sie die PDF-Datei, die konvertiert werden soll, direkt mit Drag & Drop auf die Hauptseite des Programmes. Alternativ können Sie zum Dateimenü gehen und die Option PDF-Dateien hinzufügen auswählen, um die Datei ins Programm zu importieren. Dieser Konverter unterstützt Batch-Konvertierung. Daher können Sie mehrere Dateien hinzufügen und sie gleichzeitig konvertieren.

Und dann gehen Sie auf die Registerkarte PDF Converter Pro und wählen die Option Präferenzen. Es erscheint ein Pop-up-Fenster. Nun klicken Sie auf die OCR-Registerkarte im Fenster und wählen die OCR-Erkennungssprache, die Sie möchten.

pdf mit ocr verarbeiten

Schritt 2. Gescannte PDFs in Text umwandeln

Wenn Sie die Sprache angepasst haben, aktivieren Sie die Option Gescannte PDF-Dokumente mit OCR konvertieren in der unteren Symbolleiste, um die OCR-Funktion zu aktivieren. Dann klicken Sie auf das Zahnradsymbol, um das Fenster zur Auswahl des Ausgabeformates zu öffnen. Wählen Sie einfach Klartext als Ausgabeformat. Als Letztes klicken Sie auf die Schaltfläche Konvertieren in der unteren rechten Ecke, um die Konvertierung zu starten.

Diese intelligente PDF-Tool kann die passwortgeschützten PDF-Dateien automatisch entschlüsseln. Wenn die PDF-Dateien also mit einem Druck- oder Kopierschutz versehen sind, können Sie sie direkt in den Konverter importieren und die Einstellungen auswählen, um die Konvertierung zu starten. Falls Ihre PDF-Dateien aber mit einem Berechtigungskennwort geschützt sind, wenn Sie sie in den Konverter importieren, müssen Sie das korrekte Passwort eingeben, um die Dateien zu entsperren.

pdf in bild umwandeln

Alexander Wagner

staff Editor

0 Comment(s)
> OCR PDF Dateien> Die 3 besten PDF-OCR-Open-Source-Programme