Metainformationen zur Seite
  •  

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
speedy:30_modules:imaging_ocr [2021/05/05 15:25] – [Regelwerk/Einrichtung] speedyspeedy:30_modules:imaging_ocr [2023/02/14 10:13] (aktuell) – [Regelwerk/Einrichtung] leon
Zeile 4: Zeile 4:
 Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden.  Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden. 
  
-Durch eine optische Texterkennung (OCR - Optical Character Recognition) und anschließender Auswertung eines Regelwerks kann die Indizierung weitestgehend automatisiert werden.+Durch eine optische Texterkennung ([[https://de.wikipedia.org/wiki/Texterkennung|OCR]] - Optical Character Recognition) und anschließender Auswertung eines Regelwerks kann die Indizierung weitestgehend automatisiert werden.
  
 ===== Imaging ===== ===== Imaging =====
 Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\ Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\
-[{{:speedy:30_modules:speedyimaging.png?800|speedyIMAGING mit einer Liste zu importierender PDF Dateien}}] \\+[{{:speedy:30_modules:speedyimaging.png?850|speedyIMAGING mit einer Liste zu importierender PDF Dateien}}] \\
 Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\ Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\
 Im Bereich "Dokumenteigenschaften" werden die Dokumentinformationen für die jeweilige Datei definiert. \\ Im Bereich "Dokumenteigenschaften" werden die Dokumentinformationen für die jeweilige Datei definiert. \\
Zeile 17: Zeile 17:
  
 ===== OCR ===== ===== OCR =====
-Mit Hilfe von OCR (Optical Character Recognition) können eingescannte Dokumente, Bilddateien oder PDF Dateien digitalisiert werden und wieder in Text umgewandelt werden. \\+Mit Hilfe von [[https://de.wikipedia.org/wiki/Texterkennung|OCR]] können eingescannte Dokumente, Bilddateien oder PDF Dateien digitalisiert werden und wieder in Text umgewandelt werden. \\
 Durch ein Regelwerk können bestimmte Texte als Dokumenteigenschaften erkannt und zugeordnet werden. Damit ist es möglich Dokumente gleichen Aufbaus automatisch oder zumindest halbautomatisch zu erkennen und in speedyPDM abzulegen. \\ Durch ein Regelwerk können bestimmte Texte als Dokumenteigenschaften erkannt und zugeordnet werden. Damit ist es möglich Dokumente gleichen Aufbaus automatisch oder zumindest halbautomatisch zu erkennen und in speedyPDM abzulegen. \\
 So können z.B. Eingangsrechnungen, Lieferscheine oder Prüfprotokolle automatisch in speedyPDM eingepflegt werden. \\ So können z.B. Eingangsrechnungen, Lieferscheine oder Prüfprotokolle automatisch in speedyPDM eingepflegt werden. \\
Zeile 46: Zeile 46:
  
 ==== Regelwerk/Einrichtung ==== ==== Regelwerk/Einrichtung ====
-Um eine Ocr Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses Regelwek zu erstellen gibt es einen Regelwer-Editor. +Um eine OCR Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses Regelwerk zu erstellen gibt es einen Regelwerk-Editor. 
-Dieser Editor befindet sich im Speedy-Admin unter **Konfiguration->OCR-Regeln**. In diesem Editor ist es möglich eine Datei (z.B eine Rechnung,ein Angebot,...) für das eine Regel erstellt werden soll zu öffnen.  +Der Regelwerk-Editor befindet sich im speedy-Admin unter **Konfiguration->OCR-Regeln**. Im Editor ist es möglich eine Datei (z.Beine Rechnung, ein Angebot,...) für die eine Regel erstellt werden soll zu öffnen.  
-Klicken sie dazu den Öffnen-Button in der Ribbon-Leiste und wählen sie die Datei aus. Nach dem sie die Datei gewählt haben startet der OCR-Indizierungsmechanismus und liest die Datei ein.  +Klicken sie dazu den Öffnen-Button in der Ribbon-Leiste und wählen sie eine Datei aus. Nach dem sie die Datei gewählt haben startet der OCR-Indizierungsmechanismus und liest die Datei ein. Nachdem dieser fertig ist und ihre Datei indiziert hat sehen sie ihre Datei in der Vorschau[4] und den extrahierten Text im OCR-Textfenster[3]
-Falls sie schon Regeln definiert haben und diese ebenfalls zu ihrem ausgewählten Dokument passen, werden die Regeln farbblich markiert. Somit können sie den "Weg" der Indizierung nachverfolgen.+Falls schon Regeln definiert wurden und diese zur ausgewählten Datei passen, werden die Regeln farbblich in der Regelstruktur[1] markiert. Somit kann der "Weg" der Indizierung nachverfolgt werden4.
  
 === Regel === === Regel ===
-Über den Button **Neue Regel** kann eine neue Regel definiert werden. Diese Regel kann dann über den Eigenschaften[2] Fenster bearbeitet und angepasst werden.  +Über den Button **Neue Regel** kann eine neue Regel definiert werden. Die Regel kann im Eigenschaften-Fenster[2] bearbeitet und angepasst werden.  
-Haben sie eine Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können sie verifizieren ob die eben erstellte Regel auch die gewünschten Ergebnisse hervorruft.\\+Wurde die Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können Sie verifizieren ob die eben erstellte Regel auch die gewünschten Ergebnisse liefert.
  
 **__Die Beschreibung einer Regel unterscheidet sich durch 3 Typen:__** \\ **__Die Beschreibung einer Regel unterscheidet sich durch 3 Typen:__** \\
-__1. Fester Standardwert für Speedy-Eigenschaft__ \\ +__1. Fester Standardwert für speedy-Eigenschaft__ \\ 
-Ein fester Standardwert für eine Speedy-Eigenschaft kann Sinnvoll sein um z.B. eine Vorsortierung durchzuführe. Es kann damit zum Beispiel ein Dokumenttyp gesetzt werden wenn über eine Regex Abfrage ein bestimmtes Muster gefunden wurde.\\+Ein fester Standardwert für eine speedy-Eigenschaft kann Sinnvoll sein um z.B. eine Vorsortierung durchzuführen. Es kann damit zum Beispiel ein Dokumenttyp gesetzt werden wenn über eine [[https://de.wikipedia.org/wiki/Regulärer_Ausdruck|Regex]]-Abfrage ein bestimmtes Muster gefunden wurde.\\
 Einstellungen:   Einstellungen:  
   * Pattern -> Das gewünschte Regex Pattern   * Pattern -> Das gewünschte Regex Pattern
-  * Match-index -> 0 
-  * Searchlevel -> -1 
   * Eigenschaft -> speedy Eigenschaftenname z.B. dm_doctype   * Eigenschaft -> speedy Eigenschaftenname z.B. dm_doctype
   * Standardwert -> dazugehöriger Standartwert z.B. B für Baugruppe   * Standardwert -> dazugehöriger Standartwert z.B. B für Baugruppe
Zeile 71: Zeile 69:
   * Pattern -> Das gewünschte Regex Pattern   * Pattern -> Das gewünschte Regex Pattern
   * Match-index -> 1 (1.Match des Regex Patterns)   * Match-index -> 1 (1.Match des Regex Patterns)
-  * Searchlevel -> -1 
   * Eigenschaft -> speedy Eigenschaftenname z.B. CREATE_DATE   * Eigenschaft -> speedy Eigenschaftenname z.B. CREATE_DATE
   * Flag -> Pattern   * Flag -> Pattern
Zeile 79: Zeile 76:
 Einstellungen:   Einstellungen:  
   * Eigenschaft -> speedy Eigenschaftenname z.B. kd_nr   * Eigenschaft -> speedy Eigenschaftenname z.B. kd_nr
-  * Statement -> SQL Statement. In diesem Statemaent kann z.B. eine zuvor herausgefundene Eigenschaft als Platzhalter in der Form <property> eingefügt werden. Beispiel: ...where ang_nr='<ang_nr>';+  * Statement -> SQL Statement. In diesem Statement kann z.B. eine zuvor ermittelte Eigenschaft als Platzhalter in der Form <property> eingefügt werden. Beispiel: ...where ang_nr='<ang_nr>';
   * Flag -> Statement   * Flag -> Statement
  
-<note tip> Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, das Ergebnis verschlechtern können.</note>+<note tip>    
 +  * Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, das Ergebnis verschlechtern können. 
 +  * Um Regex-Ausdrücke zu Testen und die Syntax zu erlernen kann die Website [[https://regex101.com]] zur Hilfe genommen werden. (Der erkannte OCR-Text befindet sich im OCR-Fenster[3]. 
 +</note>
  
 Die einzelnen Fenster des Regel-Editors werden nun folgend erklärt: Die einzelnen Fenster des Regel-Editors werden nun folgend erklärt:
Zeile 91: Zeile 91:
  
 ===2 Eigenschaften=== ===2 Eigenschaften===
-Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur(1ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\+Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur[1ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\
 Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als "Kinder" der Regel erstellt werden. Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als "Kinder" der Regel erstellt werden.
 Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt. Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt.
  
 ===3 OCR-Text=== ===3 OCR-Text===
-In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur(1erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert.+In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur[1erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert.
  
 ===4 Vorschau=== ===4 Vorschau===
Zeile 102: Zeile 102:
  
  
-==== Settings ====+==== Konfigurationsparameter ====
 ^Setting^Beschreibung^ ^Setting^Beschreibung^
 |ocr.tesseract.exe|Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe| |ocr.tesseract.exe|Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe|