4. Baselines-Modelle

Trainieren Sie ein Baselines-Modell, das für das Layout Ihrer Dokumente spezifisch ist, wenn die voreingestellte Layout-Erkennung Schwierigkeiten hat, Linien zu segmentieren und zu identifizieren

Vorheriger Schritt: Manuelle Layout-Erkennung


Das Standard Layout-Erkennungstool (Preset-Modell) funktioniert für die meisten Dokumenttypen gut, ist jedoch bei Dokumenten mit komplexen Layouts, wie z. B. Registern, kommentierten Dokumenten, Postkarten usw., möglicherweise nicht so genau.

Wenn die Standardlayouterkennung für Ihre Dokumente nicht zufriedenstellend ist, können Sie ein Baselines-Modell trainieren, das für Ihre Dokumenttypologie spezifisch ist. Nach der Schulung können Sie Ihr individuelles Baselines-Modell auf Ihre Dokumente anwenden, die nach den von Ihnen für die Schulung angegebenen Beispielen segmentiert werden. 

Bevor Sie mit dem Training eines Baseline-Modells beginnen, erinnern Sie sich an den Unterschied zwischen diesem und P2PaLA. P2PaLA erkennt die Struktur Ihrer Dokumente automatisch und reichert sie mit strukturellen Tags an. Im Gegenteil, ein Baselines-Modell erkennt nur die Zeilen, hat aber den Vorteil, dass es speziell auf das Layout Ihrer Dokumente geschult ist. Aus diesem Grund sollte es genauer sein als das voreingestellte Standardmodell.

Der erste Schritt besteht darin, die Seiten vorzubereiten, auf denen das Baselines-Modell trainiert werden soll. Eine gute Zahl für den Anfang ist 50 Seiten, aber die Modelleffizienz hängt von der Komplexität des Layouts ab. Nach der ersten Schulung mit 50 Seiten können Sie entscheiden, ob das Baseline-Modell gut genug ist oder ob es mehr Schulungsmaterial benötigt.

Um die Seiten vorzubereiten, müssen nur die Textbereiche und die Grundlinien automatisch oder manuell segmentiert werden. Abhängig von der Komplexität des Layouts gibt es drei Optionen, um die Seiten zu segmentieren:

  1. Führen Sie die Standardeinstellung automatische Layout-Erkennung aus.
  2. Öffnen Sie die Seite und zeichnen Sie die Textregionen manuell mit der Schaltfläche "Region hinzufügen" links neben dem Bild. Führen Sie dann die automatische Layout-Erkennung aus, um die Zeilen zu erkennen;  bevor Sie sie ausführen, denken Sie daran, die Option "Find Text Regions" zu deaktivieren. Gehen Sie abschließend die Seiten durch und korrigieren Sie die Zeilen manuell.
  3. Öffnen Sie die Seite und zeichnen Sie sowohl die Textbereiche als auch die Baselines manuell.

Welche Option ausgewählt werden soll, hängt vom Dokumenttyp ab und davon, wie schlecht die standardmäßige automatische Layout-Erkennung funktioniert. 

Vor dem Baselines-Modelltraining muss den Seiten keine Transkription hinzugefügt werden, da es sich nur auf die Baselines konzentriert und das Vorhandensein von transkribiertem Text irrelevant ist.

Sobald die 50 oder mehr Seiten segmentiert sind, ist es an der Zeit, das Baselines-Modell zu trainieren.

Klicken Sie auf die Registerkarte "Training" in der oberen Leiste rechts neben „Workdesk“. Dieser Bereich ist dem Training von Texterkennungs- und Baselines-Modellen gewidmet: in diesem Fall wählen Sie das Baselines-Modell.

Anschließend müssen Sie die Sammlung auswählen, die die Seiten mit dem korrigierten Layout enthält. Geben Sie den Kollektionstitel oder die Kollektions-ID ein und wählen Sie sie aus. 

Nachdem Sie die Sammlung ausgewählt haben, beginnt das richtige Trainings-Setup.

  1. Modell-Setup

    Die ersten Informationen, die Sie eingeben müssen, sind der Modellname (von Ihnen gewählt) und eine Beschreibung Ihres Modells und der Dokumente, in denen es trainiert wird (Material, Zeitraum, Layout-Typ...).

    Unten sehen Sie die Anzahl der Epochen. Die Anzahl der Epochen bezieht sich auf die Häufigkeit, mit der der Lernalgorithmus die gesamten Trainingsdaten durchläuft und sich selbst sowohl anhand der Trainings- als auch der Validierungsdaten bewertet. 100 Epochen funktionieren gut für die meisten Baseline-Modelltrainings.

    Sie können dann entscheiden, welche Seitenversion für das Training verwendet werden soll: nur das neueste Transkript oder die Ground Truth. Mit der ersten Option werden alle aktuellen Bearbeitungen, unabhängig davon, wie sie gespeichert wurden, angezeigt und können für das Training ausgewählt werden. Wenn Sie "Ground Truth only" wählen, sind nur die als Ground Truth gespeicherten Seiten auswählbar.

  2. Trainingsdaten

    Während des Trainings sind die Ground Truth-Seiten in zwei Gruppen unterteilt: 

    • Trainingsdaten: Satz von Beispielen, die verwendet werden, um die Parameter des Modells anzupassen, d. h. die Daten, auf denen das Wissen im Netz basiert. Auf diesen Seiten wird das Modell trainiert.
    • Validierungsdaten: Reihe von Beispielen, die eine unvoreingenommene Bewertung eines Modells ermöglichen, mit denen die Parameter des Modells während des Trainings abgestimmt werden können. Mit anderen Worten werden die Seiten der Validierungsdaten während des Trainings beiseite gelegt und zur Beurteilung ihrer Genauigkeit verwendet.

    Wählen Sie auf dieser Seite die Seiten aus, die in die Trainingsdaten aufgenommen werden sollen. Wenn Sie das Kästchen neben dem Titel des Dokuments ankreuzen, können Sie alle im Dokument verfügbaren Transkriptionen auswählen. Sie können aber auch auf die Plus-Schaltfläche klicken, den Inhalt des Dokuments erweitern und nur einige Seiten auswählen. Die ausgewählten Seiten werden auf der rechten Seite aufgelistet. 

    Die Seiten, die keine Zeilen enthalten, können nicht ausgewählt werden. Um das Dokument oder eine Seite in einer neuen Registerkarte anzuzeigen, klicken Sie auf das Augensymbol.

  3. Validierungsdaten

    Wählen Sie die Seiten aus, die den Validierungsdaten zugewiesen werden sollen.
    Sie können die Seiten manuell auswählen oder automatisch zuweisen.

    Die manuelle Auswahl funktioniert wie oben für die Trainingsdaten beschrieben. Nur die Seiten, die Text enthalten und nicht in die Trainingsdaten aufgenommen wurden, sind auswählbar.

    Bei der automatischen Auswahl werden 2 %, 5 % oder 10 % der Trainingsdaten automatisch den Validierungsdaten zugewiesen: in diesem Fall klicken Sie einfach auf den Prozentsatz, den Sie zuweisen möchten. Die automatische Auswahl wird empfohlen, um vielfältigere Validierungsdaten zu haben.

Nachdem Sie alle Details überprüft haben, klicken Sie auf "Training starten", um das Training zu starten. Sie können den Fortschritt der Schulung verfolgen, indem Sie auf die Schaltfläche "Jobs" im Menü "Transkribus Organizer" auf der linken Seite klicken. Der Abschluss jeder Epoche wird in der Stellenbeschreibung angezeigt und Sie erhalten eine E-Mail, wenn der Trainingsprozess abgeschlossen ist.

Abhängig von der Menge an Trainingsmaterial kann Ihr Training eine Weile dauern. Im "Jobs" -Fenster können Sie Ihre Position in der Warteschlange überprüfen (d. h. die Anzahl der Schulungen vor Ihnen). Sie können andere Aufgaben in Transkribus ausführen oder die Plattform während des Schulungsprozesses schließen. Wenn der Auftragsstatus "erstellt" oder "läuft" lautet, beginnen Sie bitte keine neue Schulung, sondern haben Sie einfach Geduld und warten Sie.

Nach Abschluss der Schulung können Sie das Baselines-Modell verwenden, um das Layout Ihrer Dokumente zu erkennen. Wählen Sie die zu verarbeitende (n) Seite (n) oder Dokument(e) aus und klicken Sie dann im linken Menü unter "Extras" auf "Layout-Erkennung". Anstatt das voreingestellte Modell zu verwenden, wählen Sie das Baselines-Modell, das Sie trainiert haben.

Unter den Details des Modells sehen Sie einen Prozentsatz: Dies ist der Verlust bei den Validierungsdaten. Er misst den prozentualen Anteil der falsch klassifizierten Pixel und gibt an, wie das Basismodell auf neuen Seiten, auf denen es nicht trainiert wurde, abschneidet. Ergebnisse mit einem Verlust von 10 % oder weniger bedeuten, dass das Baselines-Modell effektiv ist.

Sobald der Auftrag abgeschlossen ist, öffnen Sie die Seite/Seiten und die Textbereiche, und die Grundlinien werden in den Bildern angezeigt. Es wird kein Guthaben verwendet, um das Baselines-Modell auf Ihre Dokumente anzuwenden.

 

Nächster Schritt: P2PaLA

 


 

Transkribus eXpert (veraltet)

Das Standard Layout-Erkennungstool (Preset-Modell) funktioniert für die meisten Dokumenttypologien gut, ist jedoch bei Dokumenten mit komplexen Layouts wie Zeitungen, Postkarten, Registern, kommentierten Dokumenten usw. möglicherweise nicht so genau.

Wenn die Standardlayoutanalyse für Ihre Dokumente nicht zufriedenstellend ist, können Sie ein Baselines-Modell trainieren, das für Ihre Dokumenttypologie spezifisch ist. Nach der Schulung können Sie Ihr individuelles Baselines-Modell auf Ihre Dokumente anwenden, die nach den von Ihnen für die Schulung angegebenen Beispielen segmentiert werden. 

Bevor Sie mit dem Training eines Baseline-Modells beginnen, erinnern Sie sich an den Unterschied zwischen diesem und P2PaLA. P2PaLA erkennt die Struktur Ihrer Dokumente automatisch und reichert sie mit strukturellen Tags an. Im Gegenteil, ein Baselines-Modell erkennt nur die Baselines, hat aber den Vorteil, dass es speziell für das Layout Ihrer Dokumente geschult wird. Aus diesem Grund sollte es genauer sein als das Standard-Layoutanalyse-Erkennungstool.

Der erste Schritt besteht darin, die Seiten vorzubereiten, auf denen das Baselines-Modell trainiert werden soll. Eine gute Zahl für den Anfang ist 50 Seiten, aber die Modelleffizienz hängt von der Komplexität des Layouts ab. Nach der ersten Schulung mit 50 Seiten können Sie entscheiden, ob das Baselines-Modell gut genug ist oder ob es mehr Schulungsmaterial benötigt.

Um die Seiten vorzubereiten, müssen nur die Textbereiche und die Grundlinien automatisch oder manuell segmentiert werden. Je nach Komplexität des Layouts gibt es drei Optionen, um die Seiten zu segmentieren:

  • Führen Sie die automatische Layout-Analyse aus, die Sie unter der Registerkarte "Tools" finden, und korrigieren Sie sie dann manuell über das Leinwandmenü. 
  • Zeichnen Sie die Textbereiche manuell mit der Schaltfläche "+TR" im Canvas-Menü. Führen Sie dann auf der Registerkarte „Tools“ die automatische Layout-Analyse aus, um die Basislinien zu erkennen: Bevor Sie sie ausführen, vergessen Sie nicht, die Option „Textbereiche suchen“ zu deaktivieren. Gehen Sie abschließend die Seiten durch und korrigieren Sie sie manuell über das Canvas-Menü.
  • Zeichnen Sie sowohl die Textbereiche als auch die Grundlinien manuell mit der Schaltfläche "+TR" bzw. der Schaltfläche "+BL" im Leinwandmenü.

Welche Option ausgewählt werden soll, hängt vom Dokumenttyp ab und davon, wie schlecht die standardmäßige automatische Layout-Analyse-Erkennung funktioniert. 

Vor der Baselines-Modellschulung muss den Seiten keine Transkription hinzugefügt werden, da sie sich nur auf die Baselines konzentriert und das Vorhandensein von transkribiertem Text irrelevant ist.

Sobald die 50 oder mehr Seiten segmentiert sind, ist es an der Zeit, das Baseline-Modell zu trainieren. Klicken Sie auf die Registerkarte „Extras“. Klicken Sie im Abschnitt „Model Training“ (Modellschulung) auf „Train a new model“ (Ein neues Modell trainieren). Das Fenster Modelltraining öffnet sich, und auf der rechten Seite können Sie auswählen, welche Maschine trainiert werden soll: Für das Baseline-Modell wählen Sie bitte "Baselines".

Bevor Sie mit dem Training beginnen, geben Sie den Namen und die Beschreibung Ihres Modells ein. Sie können auch die Trainingsparameter ändern, d. h. die Anzahl der Epochen und die Lernrate. Für das erste Training und wenn Sie nicht mit maschinellem Lernen vertraut sind, ändern Sie diese Parameter nicht. 

Sie müssen dann die Seiten auswählen, die Sie zum Trainieren des Modells verwenden möchten, d. h. die Seiten, die Sie zuvor in Textbereiche und Basislinien segmentiert haben. Wählen Sie auf der linken Seite die gesamte Sammlung oder die entsprechenden Seiten aus. Klicken Sie in der Mitte auf die Schaltfläche Training, um die ausgewählten Seiten zum Trainingsset hinzuzufügen. Wenn Sie nur die Seiten mit dem Status Ground Truth betrachten möchten, wählen Sie im Dropdown-Menü rechts unter „Übersicht“ die Option „Nur Ground Truth“.

Gleiches gilt für das Validierungsset. Das Validierungsset sollte etwa 10 % des Trainingssets ausmachen, daher empfehlen wir für das erste Training, einschließlich 45 Seiten im Trainingsset und 5 Seiten im Validierungsset. Wenn Sie dem Validierungsset automatisch einen Prozentsatz des Trainingssets zuweisen möchten, markieren Sie einen Prozentsatz in der Option "Automatische Auswahl des Validierungssets", bevor Sie auf die Schaltfläche "Training" klicken.

Nach Abschluss dieser Phase können Sie mit dem Training des Baselines-Modells beginnen, indem Sie auf die Schaltfläche „Trainieren“ klicken. Je nach Menge des Trainingsmaterials kann Ihr Training eine Weile dauern. Klicken Sie auf die Schaltfläche „Jobs“, um den Jobstatus oder Ihre Position in der Warteschlange zu überprüfen (d. h. die Anzahl der Schulungen vor Ihnen). Sie können andere Aufgaben in Transkribus ausführen oder die Plattform während des Schulungsprozesses schließen. Wenn der Job-Status "erstellt" oder "läuft" lautet, beginnen Sie bitte keine neue Schulung, sondern haben Sie einfach Geduld und warten Sie.

Wenn die Schulung abgeschlossen ist, wird das Basismodell auf der Registerkarte „Server“ unter „Modelldaten“ angezeigt. Um es zu sehen, wählen Sie bitte "Layout" anstelle von "Text" als Modell-Ausgabetyp im zweiten Dropdown-Menü.

Doppelklicken Sie auf den Namen des Baseline-Modells, um alle Details und die Lernkurve anzuzeigen. Das Diagramm „Lernkurve“ zeigt die Genauigkeit des Baseline-Modells. Die x-Achse gibt die Anzahl der Epochen an, d.h. wie oft die Trainingsdaten ausgewertet werden. Die y-Achse misst den Verlust, d.h. den Prozentsatz der falsch klassifizierten Pixel. Das Programm trainiert sich zuerst auf dem Trainingsset und testet sich dann auf den Seiten des Validationssets. Aus diesem Grund gibt es zwei Linien im Diagramm. Die blaue Linie zeigt den Fortschritt der Schulung an; die rote Linie zeigt den Fortschritt der Bewertung im Validierungsset an. Beachten Sie, dass es wichtig ist, dass sich die beiden Kurven nicht zu stark unterscheiden. Wenn die beiden Kurven voneinander abweichen, unterscheidet sich das Trainingsset wahrscheinlich zu sehr vom Validierungsset und das resultierende Modell ist nicht wirksam.

Unterhalb des Diagramms geben die beiden Prozentsätze an, wie das Basismodell im Trainingsset und im Validationsset in Bezug auf den Verlust abschneidet. Der Verlust im Validierungsset ist der wichtigste Wert, da er angibt, wie das Basismodell auf neuen Seiten funktioniert, auf denen es nicht trainiert wurde. Ergebnisse mit einem Verlust von 10 % oder weniger bedeuten, dass das Baseline-Modell wirksam ist.

Um das trainierte Baseline-Modell auf Ihre Dokumente anzuwenden, gehen Sie zur Registerkarte „Tools“. Klicken Sie im oberen Bereich des Abschnitts „Layout-Analyse“ auf „Konfigurieren“. Das Fenster "Layout-Analyse-Konfiguration" öffnet sich: Hier können Sie das Baselines-Modell auswählen, das Sie trainiert haben.

In Kombination mit dem Baselines-Modell ist es auch möglich, die Einstellungen für die Layout-Analyse zu ändern (minimale Basislinienlänge; Basisliniengenauigkeitsschwellenwert; Verwendung geschulter Trennzeichen; max-dist für das Zusammenführen von Basislinien; Anzahl der Textbereiche). Weitere Informationen zu diesen Einstellungen finden Sie auf der Seite Automatische Layout-Erkennung.

Klicken Sie abschließend auf die Schaltfläche „OK“ am unteren Rand des Fensters „Layout-Analyse-Konfiguration“. Ihr trainiertes Modell wurde jetzt ausgewählt. 

Wählen Sie auf der Registerkarte „Werkzeuge“ die Seiten aus, auf denen segmentiert werden soll, und klicken Sie auf die Schaltfläche „Ausführen“: Der Layoutanalyse-Job wird nun gestartet. Sie können den Fortschritt überprüfen, indem Sie auf die Schaltfläche "Jobs" unter der Registerkarte "Server" klicken. Sobald der Auftrag abgeschlossen ist, laden Sie die Seite/Seiten neu und die Textbereiche und Basislinien werden in den Bildern angezeigt. Es wird kein Guthaben verwendet, um das Baseline-Modell auf Ihre Dokumente anzuwenden.