Metainformationen zur Seite
  •  

Dies ist eine alte Version des Dokuments!


Imaging/OCR

Mit speedyIMAGING werden PDF, TIF oder andere Bilddateien importiert und verschlagwortet. Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden.

Durch eine optische Texterkennung (OCR - Optical Character Recognition) und anschließender Auswertung eines Regelwerks kann die Indizierung weitestgehend automatisiert werden.

Imaging

Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen.

speedyIMAGING mit einer Liste zu importierender PDF Dateien


Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt.
Im Bereich „Dokumenteigenschaften“ werden die Dokumentinformationen für die jeweilige Datei definiert.
Mit dem Speichern Befehl wird die aktuelle Datei in speedyPDM abgelegt.

Das Eigenschaften Fenster passt sich je nach gewähltem Dokumenttyp an und stellt alle Dokumenteigenschaften dar. Pflichtfelder werden hierbei farblich markiert.

OCR

Mit Hilfe von OCR (Optical Character Recognition) können eingescannte Dokumente, Bilddateien oder PDF Dateien digitalisiert werden und wieder in Text umgewandelt werden.
Durch ein Regelwerk können bestimmte Texte als Dokumenteigenschaften erkannt und zugeordnet werden. Damit ist es möglich Dokumente gleichen Aufbaus automatisch oder zumindest halbautomatisch zu erkennen und in speedyPDM abzulegen.
So können z.B. Eingangsrechnungen, Lieferscheine oder Prüfprotokolle automatisch in speedyPDM eingepflegt werden.

Ablauf der OCR Indizierung

Die Texterkennung in speedyPDM erfolgt auf Basis einer TIF Bilddatei. Egal welches Dateiformat die zu importierende Datei hat (PDF, JPG, BMP, PNG, …) erfolgt eine Umwandlung in TIF. Dies geschieht automatisch im Hintergrund.
Mit Hilfe der optischen Zeichenerkennung wird nun die TIF Datei quasi in eine Textdatei umgewandelt. Nun werden die definierten Texterkennungs- und Zuordnungsregeln überprüft.

Halbautomatische Indizierung (Imaging)

Die halbautomatische Indizierung erfolgt im Programmfenster von speedyIMAGING.
Starten Sie speedyIMAGING und öffnen die zu indizierenden Dateien mit dem Befehl „Öffnen mit OCR“.

Imaging


Die Dateien durchlaufen nach der Auswahl die optische Texterkennung (OCR) und werden mit Hilfe des Regelwerks untersucht.

Alternativ können die Dateien auch zuerst mit dem Befehl „Öffnen“ in das Programmfenster geladen werden. Anschließend kann für jede Datei einzeln die Texterkennung erfolgen indem der Befehl „OCR“ gewählt wird.

Entspricht der erkannte Text einer Regel so werden die zugeordneten Werte im Eigenschaftenfenster dargestellt.
Je besser die entsprechende Regel definiert ist, umso mehr Dokumenteigenschaften werden erkannt und bereits vorausgefüllt.
Fehlende Eigenschaften können manuell ergänzt werden.

Vollautomatische Indizierung

Die vollautomatische Indizierung kommt dann zum Einsatz, wenn ausreichend gute Texterkennungsregeln definierbar sind und z.B. Dokumente automatisch nach dem Scannen abgearbeitet werden sollen.
Typischer Anwendungsfall sind hierbei z.B. Eingangs-Rechnungen oder Eingangs-Lieferscheine. Die Dokumente werden z.B. durch einen vordefinierten Scann-Prozess in einem Netzlaufwerk abgelegt. Der speedy-Spooler greift die Dateien auf und übergibt diese der OCR Erkennung (dwImportOCR.exe). Genügt die Datei einer definierten Regel wird sie automatisch in speedyPDM abgelegt.
Tritt ein Fehler bei der Erkennung auf oder passt keine der Regeln wird die Datei ein Fehler-Verzeichnis verschoben.

Regelwerk/Einrichtung

Um eine Ocr Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses Regelwek zu erstellen gibt es einen Regelwer-Editor. Dieser Editor befindet sich im Speedy-Admin unter Konfiguration→OCR-Regeln. In diesem Editor ist es möglich eine Datei (z.B eine Rechnung,ein Angebot,…) für das eine Regel erstellt werden soll zu öffnen. Klicken sie dazu den Öffnen-Button in der Ribbon-Leiste und wählen sie die Datei aus. Nach dem sie die Datei gewählt haben startet der OCR-Indizierungsmechanismus und liest die Datei ein. Falls sie schon Regeln definiert haben und diese ebenfalls zu ihrem ausgewählten Dokument passen, werden die Regeln farbblich markiert. Somit können sie den „Weg“ der Indizierung nachverfolgen.

Über den Button Neue Regel kann eine neue Regel definiert werden. Diese Regel kann dann über den Eigenschaften[2] Fenster bearbeitet und angepasst werden. Haben sie eine Regel fertig definiert kann über den Analysieren Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können sie verifizieren ob die eben erstellte Regel auch die gewünschten Ergebnisse hervorruft.

Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, das Ergebnis verschlechtern können

Die einzelnen Fenster des Regel-Editors werden nun folgend erklärt:

OCR-Regeleditor

1 Regelstruktur

Auf der linken Seite im Dialog werden die bisher eingerichteten Regeln angezeigt. Diese Regeln werden in einer Struktur wie sie abgearbeitet werden dargestellt. Das heißt wenn eine Regel zutrifft werden die dazugehörigen „Kind Regeln“ abgearbeitet. Trifft die Regel nicht zu werden die dazugehörigen „Kind Regeln“ auch nicht abgearbeitet. Wenn über den Öffnen-Button eine Datei dazu geladen wurde und eine Regel gefunden wurde wird diese Regel farblich markiert. Damit kann man erkennen welche Regel zu diesem Dokument erkannt wurden.

2 Eigenschaften

Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur(1) ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.
Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als „Kinder“ der Regel erstellt werden. Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt.

3 OCR-Text

In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur(1) erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert.

4 Vorschau

In diesem Fenster wird eine ausgewählte und indizierte Datei zur Vorschau angezeigt.

Settings

SettingBeschreibung
ocr.tesseract.exeGibt den Pfad zur Tesseract Exe an.
Default: .\\tools\\tesseract\\tesseract.exe
ocr.tesseract.tessdatatessdata Directory
Default: .\\tools\\tesseract\\tessdata
ocr.multitiffGibt an ob nur die 1.Seite OCR Indiziert werden soll oder nicht.
:= 1: Alle Seiten werden Indiziert.
:= 0: Nur die erste Seite wird Indiziert (Default)
ocr.tesseract.languageGibt die Sprache an mit der Indiziert werden soll.
Default: deu
ocr.tesseract.psm1Page Segmentation Mode, gibt an mit welcher Einstellung im ersten Durchgang der Tesseract Indizieren soll (tesseract hilfe).
Default:0
ocr.tesseract.psm2Page Segmentation Mode, gibt an mit welcher Einstellung im zweiten Durchgang der Tesseract Indizieren soll (tesseract hilfe).
Default:12
ocr.tesseract.oemGibt den Ocr-Engine Mode an.
Default:3
ocr.tesseract.configvarHier kann man die Variablen angeben die für die Konfiguration des Tesseract notwendig sind. Es können mehrere Variablen hintereinander angegeben werden. VAR=Value
Default: keine Variablen gesetzt
ocr.color.coloredGibt an ob die Indizierung Farbig oder Schwarz weiß stattfindet.
Default: 1 (Farbig)
ocr.deletefilesLöscht die erzeugten Dateien im Temp Ordner.
Default: 1 (Löschen)
ocr.zoom Zoomfaktor der beim Umwandeln von PDF in TIFF verwendet wird um ein besseres OCR Ergebnis zu erzielen.
Standardwert := 2.0