Metainformationen zur Seite
  •  

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
speedy:30_modules:imaging_ocr [2021/05/06 07:51] speedyspeedy:30_modules:imaging_ocr [2024/10/11 16:32] (aktuell) speedy
Zeile 1: Zeile 1:
-====== speedyIMAGING/OCR ======+====== Imaging/OCR ======
  
-Mit speedyIMAGING werden PDF, TIF oder andere Bilddateien importiert und verschlagwortet. +Mit [[https://speedy-pdm.de/module/speedyoffice|speedyIMAGING]] werden PDF, TIF oder andere Bilddateien importiert und verschlagwortet. 
 Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden.  Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden. 
  
-Durch eine optische Texterkennung (OCR - Optical Character Recognition) und anschließender Auswertung eines Regelwerks kann die Indizierung weitestgehend automatisiert werden.+Durch eine optische Texterkennung ([[https://de.wikipedia.org/wiki/Texterkennung|OCR]] - Optical Character Recognition) und anschließender Auswertung eines Regelwerks kann die Indizierung weitestgehend automatisiert werden.
  
 ===== Imaging ===== ===== Imaging =====
 Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\ Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\
-[{{:speedy:30_modules:speedyimaging.png?800|speedyIMAGING mit einer Liste zu importierender PDF Dateien}}] \\+[{{:speedy:30_modules:speedyimaging.png?850|speedyIMAGING mit einer Liste zu importierender PDF Dateien}}] \\
 Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\ Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\
 Im Bereich "Dokumenteigenschaften" werden die Dokumentinformationen für die jeweilige Datei definiert. \\ Im Bereich "Dokumenteigenschaften" werden die Dokumentinformationen für die jeweilige Datei definiert. \\
Zeile 17: Zeile 17:
  
 ===== OCR ===== ===== OCR =====
-Mit Hilfe von OCR (Optical Character Recognition) können eingescannte Dokumente, Bilddateien oder PDF Dateien digitalisiert werden und wieder in Text umgewandelt werden. \\+Mit Hilfe von [[https://de.wikipedia.org/wiki/Texterkennung|OCR]] können eingescannte Dokumente, Bilddateien oder PDF Dateien digitalisiert werden und wieder in Text umgewandelt werden. \\
 Durch ein Regelwerk können bestimmte Texte als Dokumenteigenschaften erkannt und zugeordnet werden. Damit ist es möglich Dokumente gleichen Aufbaus automatisch oder zumindest halbautomatisch zu erkennen und in speedyPDM abzulegen. \\ Durch ein Regelwerk können bestimmte Texte als Dokumenteigenschaften erkannt und zugeordnet werden. Damit ist es möglich Dokumente gleichen Aufbaus automatisch oder zumindest halbautomatisch zu erkennen und in speedyPDM abzulegen. \\
 So können z.B. Eingangsrechnungen, Lieferscheine oder Prüfprotokolle automatisch in speedyPDM eingepflegt werden. \\ So können z.B. Eingangsrechnungen, Lieferscheine oder Prüfprotokolle automatisch in speedyPDM eingepflegt werden. \\
Zeile 45: Zeile 45:
 Tritt ein Fehler bei der Erkennung auf oder passt keine der Regeln wird die Datei ein Fehler-Verzeichnis verschoben. Tritt ein Fehler bei der Erkennung auf oder passt keine der Regeln wird die Datei ein Fehler-Verzeichnis verschoben.
  
-==== Regelwerk/Einrichtung ====+===== Regelwerk/Einrichtung =====
 Um eine OCR Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses Regelwerk zu erstellen gibt es einen Regelwerk-Editor. Um eine OCR Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses Regelwerk zu erstellen gibt es einen Regelwerk-Editor.
 Der Regelwerk-Editor befindet sich im speedy-Admin unter **Konfiguration->OCR-Regeln**. Im Editor ist es möglich eine Datei (z.B. eine Rechnung, ein Angebot,...) für die eine Regel erstellt werden soll zu öffnen.  Der Regelwerk-Editor befindet sich im speedy-Admin unter **Konfiguration->OCR-Regeln**. Im Editor ist es möglich eine Datei (z.B. eine Rechnung, ein Angebot,...) für die eine Regel erstellt werden soll zu öffnen. 
Zeile 51: Zeile 51:
 Falls schon Regeln definiert wurden und diese zur ausgewählten Datei passen, werden die Regeln farbblich in der Regelstruktur[1] markiert. Somit kann der "Weg" der Indizierung nachverfolgt werden4. Falls schon Regeln definiert wurden und diese zur ausgewählten Datei passen, werden die Regeln farbblich in der Regelstruktur[1] markiert. Somit kann der "Weg" der Indizierung nachverfolgt werden4.
  
-=== Regel ===+==== Regel ====
 Über den Button **Neue Regel** kann eine neue Regel definiert werden. Die Regel kann im Eigenschaften-Fenster[2] bearbeitet und angepasst werden.  Über den Button **Neue Regel** kann eine neue Regel definiert werden. Die Regel kann im Eigenschaften-Fenster[2] bearbeitet und angepasst werden. 
 Wurde die Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können Sie verifizieren ob die eben erstellte Regel auch die gewünschten Ergebnisse liefert. Wurde die Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können Sie verifizieren ob die eben erstellte Regel auch die gewünschten Ergebnisse liefert.
Zeile 57: Zeile 57:
 **__Die Beschreibung einer Regel unterscheidet sich durch 3 Typen:__** \\ **__Die Beschreibung einer Regel unterscheidet sich durch 3 Typen:__** \\
 __1. Fester Standardwert für speedy-Eigenschaft__ \\ __1. Fester Standardwert für speedy-Eigenschaft__ \\
-Ein fester Standardwert für eine speedy-Eigenschaft kann Sinnvoll sein um z.B. eine Vorsortierung durchzuführen. Es kann damit zum Beispiel ein Dokumenttyp gesetzt werden wenn über eine Regex Abfrage (regular expression=regulärer Ausdruck) ein bestimmtes Muster gefunden wurde.\\+Ein fester Standardwert für eine speedy-Eigenschaft kann Sinnvoll sein um z.B. eine Vorsortierung durchzuführen. Es kann damit zum Beispiel ein Dokumenttyp gesetzt werden wenn über eine [[https://de.wikipedia.org/wiki/Regulärer_Ausdruck|Regex]]-Abfrage ein bestimmtes Muster gefunden wurde.\\
 Einstellungen:   Einstellungen:  
   * Pattern -> Das gewünschte Regex Pattern   * Pattern -> Das gewünschte Regex Pattern
Zeile 81: Zeile 81:
 <note tip>    <note tip>   
   * Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, das Ergebnis verschlechtern können.   * Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, das Ergebnis verschlechtern können.
-  * Um Regex-Ausdrücke zu Testen und die Syntax zu erlenen kann die Website [[https://regex101.com]] zur Hilfe genommen werden. (Der erkannte OCR-Text befindet sich im OCR-Fenster[3].+  * Um Regex-Ausdrücke zu Testen und die Syntax zu erlernen kann die Website [[https://regex101.com]] zur Hilfe genommen werden. (Der erkannte OCR-Text befindet sich im OCR-Fenster[3].
 </note> </note>
  
Zeile 87: Zeile 87:
 [{{:speedy:30_modules:ocr_regeleditor.png?800|OCR-Regeleditor}}] [{{:speedy:30_modules:ocr_regeleditor.png?800|OCR-Regeleditor}}]
  
-===1 Regelstruktur===+==== 1 Regelstruktur ====
 Auf der linken Seite im Dialog werden die bisher eingerichteten Regeln angezeigt. Diese Regeln werden in einer Struktur wie sie abgearbeitet werden dargestellt. Das heißt wenn eine Regel zutrifft werden die dazugehörigen "Kind Regeln" abgearbeitet. Trifft die Regel nicht zu werden die dazugehörigen "Kind Regeln" auch nicht abgearbeitet. Wenn über den Öffnen-Button eine Datei dazu geladen wurde und eine Regel gefunden wurde wird diese Regel farblich markiert. Damit kann man erkennen welche Regel zu diesem Dokument erkannt wurden.  Auf der linken Seite im Dialog werden die bisher eingerichteten Regeln angezeigt. Diese Regeln werden in einer Struktur wie sie abgearbeitet werden dargestellt. Das heißt wenn eine Regel zutrifft werden die dazugehörigen "Kind Regeln" abgearbeitet. Trifft die Regel nicht zu werden die dazugehörigen "Kind Regeln" auch nicht abgearbeitet. Wenn über den Öffnen-Button eine Datei dazu geladen wurde und eine Regel gefunden wurde wird diese Regel farblich markiert. Damit kann man erkennen welche Regel zu diesem Dokument erkannt wurden. 
  
-===2 Eigenschaften===+==== 2 Eigenschaften ====
 Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur[1] ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\ Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur[1] ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\
 Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als "Kinder" der Regel erstellt werden. Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als "Kinder" der Regel erstellt werden.
 Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt. Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt.
  
-===3 OCR-Text===+==== 3 OCR-Text ====
 In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur[1] erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert. In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur[1] erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert.
  
-===4 Vorschau===+==== 4 Vorschau ====
 In diesem Fenster wird eine ausgewählte und indizierte Datei zur Vorschau angezeigt. In diesem Fenster wird eine ausgewählte und indizierte Datei zur Vorschau angezeigt.
  
  
-==== Konfigurationsparameter ====+===== Konfigurationsparameter =====
 ^Setting^Beschreibung^ ^Setting^Beschreibung^
-|ocr.tesseract.exe|Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe| +|ocr.tesseract.exe | Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe | 
-|ocr.tesseract.tessdata|tessdata Directory \\ Default: .\\tools\\tesseract\\tessdata| +|ocr.tesseract.tessdata | tessdata Directory \\ Default: .\\tools\\tesseract\\tessdata 
-|ocr.multitiff|Gibt an ob nur die 1.Seite OCR Indiziert werden soll oder nicht. \\ := 1: Alle Seiten werden Indiziert. \\ := 0: Nur die erste Seite wird Indiziert (Default)| +|ocr.force | Erzwingt die OCR Erkennung und ignoriert evt. vorhandenen Text inner halb von PDF Dateien. 
-|ocr.tesseract.language|Gibt die Sprache an mit der Indiziert werden soll.\\ Default: deu| +|ocr.multitiff | Gibt an ob nur die 1.Seite OCR Indiziert werden soll oder nicht. \\ := 1: Alle Seiten werden Indiziert. \\ := 0: Nur die erste Seite wird Indiziert (Default) | 
-|ocr.tesseract.psm1|Page Segmentation Mode, gibt an mit welcher Einstellung im ersten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:0| +|ocr.tesseract.language | Gibt die Sprache an mit der Indiziert werden soll.\\ Default: deu | 
-|ocr.tesseract.psm2|Page Segmentation Mode, gibt an mit welcher Einstellung im zweiten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:12| +|ocr.tesseract.psm1 | Page Segmentation Mode, gibt an mit welcher Einstellung im ersten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:0 | 
-|ocr.tesseract.oem|Gibt den Ocr-Engine Mode an.\\ Default:3| +|ocr.tesseract.psm2 | Page Segmentation Mode, gibt an mit welcher Einstellung im zweiten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:12 | 
-|ocr.tesseract.configvar|Hier kann man die Variablen angeben die für die Konfiguration des Tesseract notwendig sind. Es können mehrere Variablen hintereinander angegeben werden. VAR=Value \\ Default: keine Variablen gesetzt| +|ocr.tesseract.oem | Gibt den Ocr-Engine Mode an.\\ Default:3 | 
-|ocr.color.colored|Gibt an ob die Indizierung Farbig oder Schwarz weiß stattfindet. \\ Default: 1 (Farbig)| +|ocr.tesseract.configvar | Hier kann man die Variablen angeben die für die Konfiguration des Tesseract notwendig sind. Es können mehrere Variablen hintereinander angegeben werden. VAR=Value \\ Default: keine Variablen gesetzt | 
-|ocr.deletefiles|Löscht die erzeugten Dateien im Temp Ordner. \\ Default: 1 (Löschen)| +|ocr.color.colored | Gibt an ob die Indizierung Farbig oder Schwarz weiß stattfindet. \\ Default: 1 (Farbig) | 
-|ocr.zoom| Zoomfaktor der beim Umwandeln von PDF in TIFF verwendet wird um ein besseres OCR Ergebnis zu erzielen. \\ Standardwert := 2.0|+|ocr.deletefiles | Löscht die erzeugten Dateien im Temp Ordner. \\ Default: 1 (Löschen) | 
 +|ocr.zoom | Zoomfaktor der beim Umwandeln von PDF in TIFF verwendet wird um ein besseres OCR Ergebnis zu erzielen. \\ Standardwert := 2.0 |