Metainformationen zur Seite
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen RevisionVorhergehende ÜberarbeitungNächste Überarbeitung | Vorhergehende Überarbeitung | ||
speedy:30_modules:imaging_ocr [2021/05/06 08:08] – [OCR] speedy | speedy:30_modules:imaging_ocr [2024/10/11 16:32] (aktuell) – speedy | ||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
====== Imaging/OCR ====== | ====== Imaging/OCR ====== | ||
- | Mit speedyIMAGING werden PDF, TIF oder andere Bilddateien importiert und verschlagwortet. | + | Mit [[https:// |
Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden. | Die Dateien können per Dateiauswahl ausgewählt werden oder direkt von einem Scanner geladen werden. | ||
Zeile 8: | Zeile 8: | ||
===== Imaging ===== | ===== Imaging ===== | ||
Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\ | Die zu importierenden Dateien werden per Dateiauswahl eingesammelt oder direkt per Scanner eingelesen. \\ | ||
- | [{{: | + | [{{: |
Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\ | Die Dateien Liste zeigt alle gewählten Dateien an. Die markierte Datei wird zur einfachen Verschlagwortung im großen Vorschaufenster dargestellt. \\ | ||
Im Bereich " | Im Bereich " | ||
Zeile 45: | Zeile 45: | ||
Tritt ein Fehler bei der Erkennung auf oder passt keine der Regeln wird die Datei ein Fehler-Verzeichnis verschoben. | Tritt ein Fehler bei der Erkennung auf oder passt keine der Regeln wird die Datei ein Fehler-Verzeichnis verschoben. | ||
- | ==== Regelwerk/ | + | ===== Regelwerk/ |
Um eine OCR Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses Regelwerk zu erstellen gibt es einen Regelwerk-Editor. | Um eine OCR Indizierung der Dokumente mit automatischer Verschlagwortung in speedy durchführen zu können muss ein Regelwerk vorhanden sein. Um dieses Regelwerk zu erstellen gibt es einen Regelwerk-Editor. | ||
Der Regelwerk-Editor befindet sich im speedy-Admin unter **Konfiguration-> | Der Regelwerk-Editor befindet sich im speedy-Admin unter **Konfiguration-> | ||
Zeile 51: | Zeile 51: | ||
Falls schon Regeln definiert wurden und diese zur ausgewählten Datei passen, werden die Regeln farbblich in der Regelstruktur[1] markiert. Somit kann der " | Falls schon Regeln definiert wurden und diese zur ausgewählten Datei passen, werden die Regeln farbblich in der Regelstruktur[1] markiert. Somit kann der " | ||
- | === Regel === | + | ==== Regel ==== |
Über den Button **Neue Regel** kann eine neue Regel definiert werden. Die Regel kann im Eigenschaften-Fenster[2] bearbeitet und angepasst werden. | Über den Button **Neue Regel** kann eine neue Regel definiert werden. Die Regel kann im Eigenschaften-Fenster[2] bearbeitet und angepasst werden. | ||
Wurde die Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können Sie verifizieren ob die eben erstellte Regel auch die gewünschten Ergebnisse liefert. | Wurde die Regel fertig definiert kann über den **Analysieren** Button in der Ribbon-Leiste eine erneute Indizierung durchgeführt werden. Dadurch können Sie verifizieren ob die eben erstellte Regel auch die gewünschten Ergebnisse liefert. | ||
Zeile 81: | Zeile 81: | ||
<note tip> | <note tip> | ||
* Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, | * Um ein bestmögliches Ergebnis zu bekommen wird empfohlen immer den gleichen Scanner zu verwenden, da unterschiedliche Auflösungen, | ||
- | * Um Regex-Ausdrücke zu Testen und die Syntax zu erlenen | + | * Um Regex-Ausdrücke zu Testen und die Syntax zu erlernen |
</ | </ | ||
Zeile 87: | Zeile 87: | ||
[{{: | [{{: | ||
- | ===1 Regelstruktur=== | + | ==== 1 Regelstruktur |
Auf der linken Seite im Dialog werden die bisher eingerichteten Regeln angezeigt. Diese Regeln werden in einer Struktur wie sie abgearbeitet werden dargestellt. Das heißt wenn eine Regel zutrifft werden die dazugehörigen "Kind Regeln" | Auf der linken Seite im Dialog werden die bisher eingerichteten Regeln angezeigt. Diese Regeln werden in einer Struktur wie sie abgearbeitet werden dargestellt. Das heißt wenn eine Regel zutrifft werden die dazugehörigen "Kind Regeln" | ||
- | ===2 Eigenschaften=== | + | ==== 2 Eigenschaften |
Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur[1] ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\ | Hier werden die dazugehörigen Eigenschaften zu der in der Regelstruktur[1] ausgewählten Regel angezeigt. Die Eigenschaften können dort eingebaut und eingestellt werden.\\ | ||
Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als " | Hinweis: Wenn ein Bereich ausgewählt wird werden andere Eigenschaften ignoriert. Eigenschaften die in einem Bereich gesucht werden sollen müssen als " | ||
Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt. | Um den gewünschten Bereich einzustellen öffnet sich bei klicken der 3 Punkte in der Bereichs-Zeile ein Dialog. In diesem Dialog kann durch klicken und halten ein Viereck definiert werden dass dann den Bereich beschreibt. | ||
- | ===3 OCR-Text=== | + | ==== 3 OCR-Text |
In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur[1] erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert. | In diesem Fenster wird der erkannte OCR-Text eingetragen. Wenn eine Regel unter der Regelstruktur[1] erkannt wurden, diese dort Farblich markiert ist und über eine Pattern-Suche im OCR-Text gefunden wurde, wird der gefundene Text ebenfalls mit der gleichen Farbe markiert. | ||
- | ===4 Vorschau=== | + | ==== 4 Vorschau |
In diesem Fenster wird eine ausgewählte und indizierte Datei zur Vorschau angezeigt. | In diesem Fenster wird eine ausgewählte und indizierte Datei zur Vorschau angezeigt. | ||
- | ==== Konfigurationsparameter ==== | + | ===== Konfigurationsparameter |
^Setting^Beschreibung^ | ^Setting^Beschreibung^ | ||
- | |ocr.tesseract.exe|Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe| | + | |ocr.tesseract.exe | Gibt den Pfad zur Tesseract Exe an. \\ Default: .\\tools\\tesseract\\tesseract.exe | |
- | |ocr.tesseract.tessdata|tessdata Directory \\ Default: .\\tools\\tesseract\\tessdata| | + | |ocr.tesseract.tessdata | tessdata Directory \\ Default: .\\tools\\tesseract\\tessdata |
- | |ocr.multitiff|Gibt an ob nur die 1.Seite OCR Indiziert werden soll oder nicht. \\ := 1: Alle Seiten werden Indiziert. \\ := 0: Nur die erste Seite wird Indiziert (Default)| | + | |ocr.force | Erzwingt die OCR Erkennung und ignoriert evt. vorhandenen Text inner halb von PDF Dateien. |
- | |ocr.tesseract.language|Gibt die Sprache an mit der Indiziert werden soll.\\ Default: deu| | + | |ocr.multitiff | Gibt an ob nur die 1.Seite OCR Indiziert werden soll oder nicht. \\ := 1: Alle Seiten werden Indiziert. \\ := 0: Nur die erste Seite wird Indiziert (Default) | |
- | |ocr.tesseract.psm1|Page Segmentation Mode, gibt an mit welcher Einstellung im ersten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default: | + | |ocr.tesseract.language | Gibt die Sprache an mit der Indiziert werden soll.\\ Default: deu | |
- | |ocr.tesseract.psm2|Page Segmentation Mode, gibt an mit welcher Einstellung im zweiten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default: | + | |ocr.tesseract.psm1 | Page Segmentation Mode, gibt an mit welcher Einstellung im ersten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:0 | |
- | |ocr.tesseract.oem|Gibt den Ocr-Engine Mode an.\\ Default: | + | |ocr.tesseract.psm2 | Page Segmentation Mode, gibt an mit welcher Einstellung im zweiten Durchgang der Tesseract Indizieren soll (tesseract hilfe). \\ Default:12 | |
- | |ocr.tesseract.configvar|Hier kann man die Variablen angeben die für die Konfiguration des Tesseract notwendig sind. Es können mehrere Variablen hintereinander angegeben werden. VAR=Value \\ Default: keine Variablen gesetzt| | + | |ocr.tesseract.oem | Gibt den Ocr-Engine Mode an.\\ Default:3 | |
- | |ocr.color.colored|Gibt an ob die Indizierung Farbig oder Schwarz weiß stattfindet. \\ Default: 1 (Farbig)| | + | |ocr.tesseract.configvar | Hier kann man die Variablen angeben die für die Konfiguration des Tesseract notwendig sind. Es können mehrere Variablen hintereinander angegeben werden. VAR=Value \\ Default: keine Variablen gesetzt | |
- | |ocr.deletefiles|Löscht die erzeugten Dateien im Temp Ordner. \\ Default: 1 (Löschen)| | + | |ocr.color.colored | Gibt an ob die Indizierung Farbig oder Schwarz weiß stattfindet. \\ Default: 1 (Farbig) | |
- | |ocr.zoom| Zoomfaktor der beim Umwandeln von PDF in TIFF verwendet wird um ein besseres OCR Ergebnis zu erzielen. \\ Standardwert := 2.0| | + | |ocr.deletefiles | Löscht die erzeugten Dateien im Temp Ordner. \\ Default: 1 (Löschen) | |
+ | |ocr.zoom | Zoomfaktor der beim Umwandeln von PDF in TIFF verwendet wird um ein besseres OCR Ergebnis zu erzielen. \\ Standardwert := 2.0 | |