Metainformationen zur Seite
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen RevisionVorhergehende ÜberarbeitungNächste Überarbeitung | Vorhergehende Überarbeitung | ||
speedy:30_modules:imaging_ocr [2021/05/05 15:25] – [Regelwerk/Einrichtung] speedy | speedy:30_modules:imaging_ocr [2024/10/11 16:32] (aktuell) – speedy | ||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
====== Imaging/OCR ====== | ====== Imaging/OCR ====== | ||
- | Mit speedyIMAGING werden PDF, TIF oder andere Bilddateien importiert und verschlagwortet. | + | Mit [[https:// |
Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden. | Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden. | ||
- | Durch eine optische Texterkennung (OCR - Optical Character Recognition) und anschließender Auswertung eines Regelwerks kann die Indizierung weitestgehend automatisiert werden. | + | Durch eine optische Texterkennung ([[https:// |
===== Imaging ===== | ===== Imaging ===== | ||
Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\ | Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\ | ||
- | [{{: | + | [{{: |
Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\ | Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\ | ||
Im Bereich " | Im Bereich " | ||
Zeile 17: | Zeile 17: | ||
===== OCR ===== | ===== OCR ===== | ||
- | Mit Hilfe von OCR (Optical Character Recognition) | + | Mit Hilfe von [[https:// |
Durch ein Regelwerk können bestimmte Texte als Dokumenteigenschaften erkannt und zugeordnet werden. Damit ist es möglich Dokumente gleichen Aufbaus automatisch oder zumindest halbautomatisch zu erkennen und in speedyPDM abzulegen. \\ | Durch ein Regelwerk können bestimmte Texte als Dokumenteigenschaften erkannt und zugeordnet werden. Damit ist es möglich Dokumente gleichen Aufbaus automatisch oder zumindest halbautomatisch zu erkennen und in speedyPDM abzulegen. \\ | ||
So können z.B. Eingangsrechnungen, | So können z.B. Eingangsrechnungen, | ||
Zeile 45: | Zeile 45: | ||
Tritt ein Fehler bei der Erkennung auf oder passt keine der Regeln wird die Datei ein Fehler-Verzeichnis verschoben. | Tritt ein Fehler bei der Erkennung auf oder passt keine der Regeln wird die Datei ein Fehler-Verzeichnis verschoben. | ||
- | ==== Regelwerk/ | + | ===== Regelwerk/ |
- | Um eine Ocr Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses | + | Um eine OCR Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses |
- | Dieser | + | Der Regelwerk-Editor befindet sich im speedy-Admin unter **Konfiguration-> |
- | Klicken sie dazu den Öffnen-Button in der Ribbon-Leiste und wählen sie die Datei aus. Nach dem sie die Datei gewählt haben startet der OCR-Indizierungsmechanismus und liest die Datei ein. | + | Klicken sie dazu den Öffnen-Button in der Ribbon-Leiste und wählen sie eine Datei aus. Nach dem sie die Datei gewählt haben startet der OCR-Indizierungsmechanismus und liest die Datei ein. Nachdem dieser fertig ist und ihre Datei indiziert hat sehen sie ihre Datei in der Vorschau[4] und den extrahierten Text im OCR-Textfenster[3]. |
- | Falls sie schon Regeln definiert | + | Falls schon Regeln definiert |
- | === Regel === | + | ==== Regel ==== |
- | Über den Button **Neue Regel** kann eine neue Regel definiert werden. | + | Über den Button **Neue Regel** kann eine neue Regel definiert werden. |
- | Haben sie eine Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können | + | Wurde die Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können |
**__Die Beschreibung einer Regel unterscheidet sich durch 3 Typen:__** \\ | **__Die Beschreibung einer Regel unterscheidet sich durch 3 Typen:__** \\ | ||
- | __1. Fester Standardwert für Speedy-Eigenschaft__ \\ | + | __1. Fester Standardwert für speedy-Eigenschaft__ \\ |
- | Ein fester Standardwert für eine Speedy-Eigenschaft kann Sinnvoll sein um z.B. eine Vorsortierung | + | Ein fester Standardwert für eine speedy-Eigenschaft kann Sinnvoll sein um z.B. eine Vorsortierung |
Einstellungen: | Einstellungen: | ||
* Pattern -> Das gewünschte Regex Pattern | * Pattern -> Das gewünschte Regex Pattern | ||
- | * Match-index -> 0 | ||
- | * Searchlevel -> -1 | ||
* Eigenschaft -> speedy Eigenschaftenname z.B. dm_doctype | * Eigenschaft -> speedy Eigenschaftenname z.B. dm_doctype | ||
* Standardwert -> dazugehöriger Standartwert z.B. B für Baugruppe | * Standardwert -> dazugehöriger Standartwert z.B. B für Baugruppe | ||
Zeile 71: | Zeile 69: | ||
* Pattern -> Das gewünschte Regex Pattern | * Pattern -> Das gewünschte Regex Pattern | ||
* Match-index -> 1 (1.Match des Regex Patterns) | * Match-index -> 1 (1.Match des Regex Patterns) | ||
- | * Searchlevel -> -1 | ||
* Eigenschaft -> speedy Eigenschaftenname z.B. CREATE_DATE | * Eigenschaft -> speedy Eigenschaftenname z.B. CREATE_DATE | ||
* Flag -> Pattern | * Flag -> Pattern | ||
Zeile 79: | Zeile 76: | ||
Einstellungen: | Einstellungen: | ||
* Eigenschaft -> speedy Eigenschaftenname z.B. kd_nr | * Eigenschaft -> speedy Eigenschaftenname z.B. kd_nr | ||
- | * Statement -> SQL Statement. In diesem | + | * Statement -> SQL Statement. In diesem |
* Flag -> Statement | * Flag -> Statement | ||
- | <note tip> Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, | + | <note tip> |
+ | * Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, | ||
+ | * Um Regex-Ausdrücke zu Testen und die Syntax zu erlernen kann die Website [[https:// | ||
+ | </ | ||
Die einzelnen Fenster des Regel-Editors werden nun folgend erklärt: | Die einzelnen Fenster des Regel-Editors werden nun folgend erklärt: | ||
[{{: | [{{: | ||
- | ===1 Regelstruktur=== | + | ==== 1 Regelstruktur |
Auf der linken Seite im Dialog werden die bisher eingerichteten Regeln angezeigt. Diese Regeln werden in einer Struktur wie sie abgearbeitet werden dargestellt. Das heißt wenn eine Regel zutrifft werden die dazugehörigen "Kind Regeln" | Auf der linken Seite im Dialog werden die bisher eingerichteten Regeln angezeigt. Diese Regeln werden in einer Struktur wie sie abgearbeitet werden dargestellt. Das heißt wenn eine Regel zutrifft werden die dazugehörigen "Kind Regeln" | ||
- | ===2 Eigenschaften=== | + | ==== 2 Eigenschaften |
- | Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur(1) ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\ | + | Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur[1] ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\ |
Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als " | Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als " | ||
Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt. | Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt. | ||
- | ===3 OCR-Text=== | + | ==== 3 OCR-Text |
- | In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur(1) erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert. | + | In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur[1] erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert. |
- | ===4 Vorschau=== | + | ==== 4 Vorschau |
In diesem Fenster wird eine ausgewählte und indizierte Datei zur Vorschau angezeigt. | In diesem Fenster wird eine ausgewählte und indizierte Datei zur Vorschau angezeigt. | ||
- | ==== Settings | + | ===== Konfigurationsparameter ===== |
^Setting^Beschreibung^ | ^Setting^Beschreibung^ | ||
- | |ocr.tesseract.exe|Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe| | + | |ocr.tesseract.exe | Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe | |
- | |ocr.tesseract.tessdata|tessdata Directory \\ Default: .\\tools\\tesseract\\tessdata| | + | |ocr.tesseract.tessdata | tessdata Directory \\ Default: .\\tools\\tesseract\\tessdata |
- | |ocr.multitiff|Gibt an ob nur die 1.Seite OCR Indiziert werden soll oder nicht. \\ := 1: Alle Seiten werden Indiziert. \\ := 0: Nur die erste Seite wird Indiziert (Default)| | + | |ocr.force | Erzwingt die OCR Erkennung und ignoriert evt. vorhandenen Text inner halb von PDF Dateien. |
- | |ocr.tesseract.language|Gibt die Sprache an mit der Indiziert werden soll.\\ Default: deu| | + | |ocr.multitiff | Gibt an ob nur die 1.Seite OCR Indiziert werden soll oder nicht. \\ := 1: Alle Seiten werden Indiziert. \\ := 0: Nur die erste Seite wird Indiziert (Default) | |
- | |ocr.tesseract.psm1|Page Segmentation Mode, gibt an mit welcher Einstellung im ersten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default: | + | |ocr.tesseract.language | Gibt die Sprache an mit der Indiziert werden soll.\\ Default: deu | |
- | |ocr.tesseract.psm2|Page Segmentation Mode, gibt an mit welcher Einstellung im zweiten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default: | + | |ocr.tesseract.psm1 | Page Segmentation Mode, gibt an mit welcher Einstellung im ersten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:0 | |
- | |ocr.tesseract.oem|Gibt den Ocr-Engine Mode an.\\ Default: | + | |ocr.tesseract.psm2 | Page Segmentation Mode, gibt an mit welcher Einstellung im zweiten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:12 | |
- | |ocr.tesseract.configvar|Hier kann man die Variablen angeben die für die Konfiguration des Tesseract notwendig sind. Es können mehrere Variablen hintereinander angegeben werden. VAR=Value \\ Default: keine Variablen gesetzt| | + | |ocr.tesseract.oem | Gibt den Ocr-Engine Mode an.\\ Default:3 | |
- | |ocr.color.colored|Gibt an ob die Indizierung Farbig oder Schwarz weiß stattfindet. \\ Default: 1 (Farbig)| | + | |ocr.tesseract.configvar | Hier kann man die Variablen angeben die für die Konfiguration des Tesseract notwendig sind. Es können mehrere Variablen hintereinander angegeben werden. VAR=Value \\ Default: keine Variablen gesetzt | |
- | |ocr.deletefiles|Löscht die erzeugten Dateien im Temp Ordner. \\ Default: 1 (Löschen)| | + | |ocr.color.colored | Gibt an ob die Indizierung Farbig oder Schwarz weiß stattfindet. \\ Default: 1 (Farbig) | |
- | |ocr.zoom| Zoomfaktor der beim Umwandeln von PDF in TIFF verwendet wird um ein besseres OCR Ergebnis zu erzielen. \\ Standardwert := 2.0| | + | |ocr.deletefiles | Löscht die erzeugten Dateien im Temp Ordner. \\ Default: 1 (Löschen) | |
+ | |ocr.zoom | Zoomfaktor der beim Umwandeln von PDF in TIFF verwendet wird um ein besseres OCR Ergebnis zu erzielen. \\ Standardwert := 2.0 | |