Nuance OmniPage 18 Professional im Test

Die Qualität einer OCR-Software (Optical Character Recognition, optischen Zeichenerkennung) wie dem Klassiker OmniPage hängt im Wesentlichen von der Genauigkeit der Texterkennung ab. Alle weiteren Komfortfunktionen bauen darauf auf. Und die Zeitersparnis des Einscannens und Konvertierens in bearbeitbare Dokumente per OCR gegenüber dem manuellen Abtippen ergibt sich direkt aus dem Umfang notwendiger Korrekturen im Rahmen der automatischen Texterkennung. Trotz zahlreicher Verbesserungen im Bereich der Layout- und Zeichenerkennung, automatisierter Stapelverarbeitung und der Vorverarbeitung eingescannter Dokumente: Anwender können sich nicht auf eine vollautomatische Texterkennung verlassen und müssen stets Zeit einkalkulieren für das Kontrollieren und Korrigieren der Dokumente.
Bessere Layouterkennung bei Tabellen
Gegenüber seinen Vorgängerversionen kann die Funktion für das Erkennen und Übernehmen von eingescannten Layouts überzeugen. Die Ergebnistabelle eines Marathon-Events (zwei DIN A4-Drukseiten auf eine Seite verkleinert und kombiniert) wurde im Test von ITespresso.de originalgetreu strukturiert und zuverlässig nach Word und Excel exportiert. In Excel befanden sich die zusammengehörenden Inhalte exakt in den passenden Zellen. In Word wurde das Layout durch Spalten und Tab-Stops umgesetzt – eine gute Lösung. Ungenauigkeiten fielen vor allem bei Linienelementen auf. Hier hat OmniPage einige Elemente übersehen, was jedoch für die Weiterbearbeitung der Daten nicht problematisch ist.

Probleme mit komplexen Magazinseiten
Eine weitere Herausforderung ist die Erkennung einer komplexen Layoutseite eines Kinomagazins. Hier sind bunte Bild- und Textelemente mit verschiedenen Farben und Schrifttypen kombiniert. Im Test mit der Automatikfunktion zeigen sich einige Schwächen: Die Textrahmen wählt das Programm zu klein, so dass Textinhalte unberücksichtigt bleiben. Text auf farbigem oder unruhigem Hintergrund bereitet der OCR-Engine Probleme; die Erkennungsqualität lässt deutlich nach.
Auffällig ist zudem, dass beim Wiederholen der Texterkennung in derselben Datei die Ergebnisse durchaus unterschiedlich ausfallen. Wörter, die im ersten Durchgang korrekt erfasst wurden, übernahm OmniPage etwa im dritten Durchgang plötzlich fehlerhaft.
In der Darstellung im Rahmen der Seitenansicht in OmniPage oder beim Export als PDF-Datei schneidet OmniPage einige Überschriften auf halber Höhe ab, obgleich die zugrunde liegenden Daten durchaus erfasst sind, wie der Export nach Word zeigt. In Word stört dann jedoch die Einbindung der Bildelemente, da diese zum Teil kombiniert werden und leere Flächen mit Weiß aufgefüllt werden und Textinhalte überdecken können. Anwender sind bei komplexen Magazinseiten mit kleinteiligen Elementen besser beraten, wenn sie manuell Textrahmen für die OCR-Erfassung definieren. Dann sind die Ergebnisse deutlich besser.

Quellenvielfalt: Zeitungen, eBooks, Fotos
Tageszeitungen bereiten OCR-Programmen oft Probleme aufgrund des dunklen Papiers, Faltenschatten und durchscheinender Texte von der Rückseite. Alte OmniPage-Versionen hatten auch Schwierigkeiten mit dem Spaltensatz, die jetzt aber der Vergangenheit angehören. Das Layout des Zeitungsartikels wird korrekt erkannt und übernommen, von der Überschrift bis zur Bildunterschrift und dem mehrspaltigen Fließtext. Trotz qualitativ guter Vorlage und 300-dpi-Scan treten jedoch bei einigen Wörtern Fehler auf, die OmniPage nicht erkennt und nicht zur Korrektur anbietet. Hier zeigt es sich, wie wichtig es ist, die OCR-Ergebnisse immer im Exportdokument zu kontrollieren und notfalls manuell zu korrigieren.

Keine Erkennungsprobleme sollte OmniPage beim Analysieren von eBook-Seiten haben. Im Test nutzen wir Beispielseiten aus dem Buch »1001 Unbelievable Facts« von Helen Otway, die als nicht durchsuchbares PDF vorliegen (also ohne bearbeitbaren Echttext). Wie zu erwarten sind die Übernahmeergebnisse von Layout und Text hierbei sehr gut. Anwender können sich also bei hochwertigen digitalen Vorlagen mitunter auch auf die vollautomatische Stapelverarbeitung verlassen, die durchsuchbare PDFs sowie bearbeitbare Word-Dokumente erstellt.
Ein großes Versprechen macht Nuance seinen Kunden, wenn OmniPage 18 fotografierte Bilder in Texte umwandeln können soll. Die Herausforderungen dabei sind zum Beispiel ungünstige Belichtung, leichte optische Verzerrungen und geringe Kontraste sowie Textrelikte benachbarter Seiten. Für den Test fotografieren wir mit einer Nikon Coolpix P7000 einige Seiten aus dem Buch »The Runner’s High« von Garth Batista, das auf relativ gelbliches Papier gedruckt und in einer nicht leicht erfassbaren Antiqua-Schrift (zum Teil dünne Schriftbögen und Serifen) gesetzt wurde. OmniPage 18 erkennt den Satzspiegel der Testseiten einwandfrei. Abgesehen von einigen wenigen Ausrutschern erkennt die OCR-Engine den englischen Text einwandfrei – auch im Automatikmodus. Zu den Ausrutschern zählen etwa: »euer« statt »ever«, »0« statt »O« sowie die wiederholte Tilgung des Personalpronomens »I« (»ich«).

Fazit Layout- und Texterkennung
Am zuverlässigsten funktioniert die Zeichenerkennung naturgemäß bei der Konvertierung von eBook-Dokumenten in bearbeitbaren Text, durchsuchbare PDFs oder Text-to-Speech-Sounddateien (WAV). Überraschend gut ist die OCR-Leistung bei fotografiertem Buchtext. Im Test kam eine 10-Megapixel-Kamera zum Einsatz. Laut Nuance soll die Texterkennung ab 2 Megapixel möglich sein. Doch je höher die Auflösung des Quellmaterials desto besser dürften auch die Erkennungsraten sein.
Die Layouterkennung und -übernahme überzeugt bei einer komplexen Tabelle sowie beim Zeitungsartikel. Hindernisse erwarten den Anwender bei bunten Zeitschriftenseiten, die sich jedoch durch manuelles Definieren von Textrahmen für den OCR-Prozess überwinden lassen. In der Gesamtbetrachtung sind die Erkennungsraten auch bei guten Scandaten befriedigend. Hier einige Beispiele für falsche »Erkennungen« trotz guter Vorlage:
»21,111ermarathon« statt »21. Illermarathon«
»Giintrier» statt »Güntner« (Eigenname)
»Adilari« statt »Adrian« (Eigenname)
»leo« statt »1960«
»leeilke« statt »Beenke« (Eigenname)
»Seredeikiiinchen« statt »Services München«
Häufige Fehler im Detail sind zum Beispiel »u« statt »ü«, Leerzeichen oder Punkt statt »;« oder »:«, »rn« statt »m«, »VV« statt »W«, »Q« statt »(J)«, »0« statt »O« sowie die Tilgung von »I« in englischen Texten.

Komfortfunktionen für professionelle Anwender
Für den Einsatz im Business-Umfeld verfügt OmniPage 18 Professionell über zahlreiche Funktionen, die das digitale Dokumentenmanagement einfacher, schneller und flexibler gestalten. Ein großes Maß an Flexibilität ermöglicht die OCR-Suite durch ihre vielen Ausgabeformate, zum Beispiel von PDF über Word und Excel bis hin zu Powerpoint und HTML, und die Kompatibilität mit etwa 120 Sprachen auf Basis des lateinischen, griechischen und kyrillischen Alphabets sowie der chinesischen, japanischen und koreanischen Sprache.
Angenehm schnell geht auch das Erfassen und Analysieren von vielseitigen Dokumenten sowie Formularen vonstatten. Im Test benötigt Omnipage etwa für den Import und die (vollautomatische) OCR-Analyse eines 72seitigen eBooks knapp zweieinhalb Minuten. Eingescannte Rasterbilder analysiert das Programm auf unserem 2-GHz-Testrechner meist in fünf bis 15 Sekunden – abhängig von der Komplexität des Originals. Der Export in eines der vielen Zielformate erfolgt sofort, ohne spürbare Wartezeit.
Durch die Möglichkeiten, Arbeitsprozesse selbst zu definieren und durch Stapelverarbeitung zu automatisieren, lassen sich auch große Dokumentmengen schnell und effizient verarbeiten. So lassen sich etwa Ordner bestimmen, deren neu hinzugekommene Inhalte -etwa von Scannern oder MFPs im Netzwerk – automatisch weiterverarbeitet werden. Für Business-Anwender hilfreich dürfte auch zum Beispiel die Sharepoint-Anbindung sein sowie die Kompatibilität mit der ODMA-API, dem Open Document Management Application Programming Interface. Die Zusammenarbeit mit Dokumentspeichern im Internet wie GoogleDocs, Windows Live SkyDrive, Evernote, Dropbox, Box.net dürfte in erster Linie für Privatanwender nützlich sein. Das dafür benötigte separate Tool Cloud Connector ist Teil der vollständigen OmniPage-Installation.
Für Zeitersparnis sorgen auch Stapelprozesse wie das automatische Markieren von bestimmten Stichwörtern. Mit der Suchen-und-Markieren-Funktion lassen sich dokumentweit Begriffe schwärzen, hervorheben und durchstreichen. Besonders das automatische Schwärzen ist hilfreich, etwa um Dokumente zu anonymisieren. Im Test hat OmniPage 18 den gewählten Begriff »Marketing« weitgehend zuverlässig erkannt und stets sauber geschwärzt – auch in zusammengesetzten Begriffen.

Eine Frage der Version: Professional oder Standard?
Die Kernfunktionen sowie die OCR-Engine sind bei OmniPage 18 in beiden Varianten identisch. Die Professional-Version (199 Euro) bietet jedoch gegenüber dem kleinen Standard-Bruder (99 Euro) wertvolle Vorteile: Sie beinhaltet zusätzlich die Dokumentenmanagement-Applikation Paperport 12 sowie den PDF-Konverter PDF Create 7, die einzeln bereits 79 Euro und 49 Euro kosten. Wer bereits eine andere PDF- und DMS-Anwendung einsetzt und deshalb auf OmniPage 18 Standard setzt, verzichtet jedoch auch auf weitere Funktionen. Dazu gehören zum Beispiel: das Empfangen von Scans aus vernetzten MFPs, die Ausgabe von eBook-Dokumenten (.opt), Formularwerkzeuge und die Datenerfassung aus PDF- und Papierformularen, Stapelverarbeitung von Scan-Dateien in überwachten Ordnern, automatisches Schwärzen / Hervorheben / Durchstreichen, die Sharepoint-Integration und die ODMA-Anbindung.
Für den Einsatz im Unternehmensnetzwerk ist definitiv die Professional-Version (gegebenenfalls auch gleich die Enterprise-Version) zu empfehlen. Wer nur gelegentlich OCR-Projekte durchführt und dabei keine sensiblen Dokumente bearbeitet, kann getrost zur Standard-Version greifen. Aufgrund der zusätzlichen DMS- und PDF-Tools ist die Professional-Version jedoch auch für Privatanwender lohnenswert.
Fazit
Anwender, die aufgrund der Werbeversprechen des Herstellers (»erstaunliche Erkennungsgenauigkeit«, »hochpräzise Erkennung«) zu hohe Erwartungen an OmniPage 18 Professional stellen, werden von der Erkennungsgenauigkeit besonders im Automatikmodus enttäuscht sein. Wer jedoch realistische Erwartungen hegt und mit einem – je nach Vorlage – vergleichsweise hohen Aufwand für die Ergebniskontrolle und -korrektur rechnet, bekommt mit OmniPage 18 Professional eine funktionsstarke OCR-Applikation, die gut bedienbar ist und viele Features für den Business-Einsatz beinhaltet. Gegenüber dem Aufwand, den das – ebenfalls nicht immer fehlerfreie – Abtippen von Texten bedeutet, spart die OCR-Erfassung inklusive der manuellen Korrektur deutlich Zeit.
Das Korrekturfenster zeigt den relevanten Ausschnitt aus der Scandatei, bietet automatische (aber oft auch unsinnige) Wortalternativen an und erleichtert das Korrigieren. Die Arbeitsoberfläche lässt sich gut an die eigenen Bedürfnisse anpassen. Besonders überzeugt im Test die automatische Erkennung von Layouts sowie deren Übernahme in das exportierte Zieldokument. Auffallend gut funktionierten im Test auch der Export nach Excel sowie die Texterkennung bei fotografierten Buchseiten. Schlechte Erkennungsergebnisse lassen sich durch manuelles Eingreifen, etwa den Einsatz von Scan-Optimierungs-Tools, Vorverarbeitungsoptionen und individuelle Ergänzungen des Wörterbuchs, verbessern. Insgesamt hinterlässt OmniPage 18 Professional einen guten Eindruck.
OmniPage 18 Professional
Hersteller: Nuance
Internet: www.nuance.de
Preis: 199 Euro
Note: gut
Bedienung (25 %): gut
Leistung (50 %): befriedigend
Ausstattung (25 %): sehr gut
Das ist neu
– Verbesserung der Layouterkennung
– Genauere Zeichenerkennung bei gescannten Rasterbildern
– Schnellere Verarbeitung, v.a. bei mehrseitigen Dokumenten
– Bessere Komprimierung durchsuchbarer PDF-Dateien
– Cloud-Connector für Anbindung an Online-Dokumenten-Speicherdienste
– Assistent für Mehrseiten-Dokumente^
– Automatische Spracherkennung im vollautomatischen Betrieb
– Support für ISIS-Scanner
Systemvoraussetzungen
Betriebssystem: Windows 7/Vista SP2/XP SP3
Prozessor: ab Pentium mit 1 GHz
Arbeitsspeicher: ab 1 GByte RAM empfohlen
Festplattenspeicher: ca. 1,3 GByte für alle Anwendungen
Weiteres: WIA-, Twain- oder ISIS-Scannertreiber; Digicam ab 2 Megapixel