Verwenden Sie Struktur-Tags, um Ihre Dokumente in strukturelle Abschnitte wie Absätze, Überschriften, Marginalien oder Ihre benutzerdefinierten Kategorien zu unterteilen
Vorheriger Schritt: Layouterkennung
Structure-Tags sind hilfreich, wenn Sie die Layout-Elemente (Textbereiche und -linien) markieren und diese Informationen im XML neben den Koordinaten jeder Form exportieren möchten oder wenn Sie die Texterkennung auf bestimmte Bereiche beschränken möchten, anstatt die gesamte Seite zu erkennen.
Um mit Struktur-Tags zu arbeiten, müssen Sie sie zuerst sichtbar machen. Klicken Sie im Menü links im Bild auf das Symbol „Einstellungen“ und wählen Sie „Strukturtypen verwalten“.
Klicken Sie in diesem Fenster auf das Augensymbol, um die Standard-Struktur-Tags sichtbar zu machen. Sie können auch benutzerdefinierte Tags hinzufügen: Klicken Sie auf „Neuen Strukturtyp hinzufügen“, geben Sie dann den Namen ein und wählen Sie die Farbe aus. Denken Sie daran, Ihre Einstellungen zu speichern, bevor Sie zum Editor zurückkehren.
Um einem Textbereich oder einer Linie ein Struktur-Tag zuzuweisen, wählen Sie die Form aus und klicken Sie mit der rechten Maustaste darauf: Der erste Menüpunkt ist "Strukturtyp zuweisen". Klicken Sie darauf und wählen Sie das entsprechende Tag aus, das der ausgewählten Form zugewiesen werden soll. Hier sehen Sie nur die Tags, die Sie in den Einstellungen sichtbar gemacht haben. Wenn Sie ein Struktur-Tag löschen möchten, klicken Sie in der Tag-Liste auf „none“.
Um dasselbe Tag mehreren Regionen gleichzeitig zuzuweisen, halten Sie die STRG-Taste gedrückt, wählen Sie die entsprechenden Regionen aus und klicken Sie dann mit der rechten Maustaste auf das Struktur-Tag.
< br>
In den Einstellungen können Sie die Option aktivieren, Strukturbeschriftungen und Farben anzuzeigen sowie die Beschriftungsgröße zu ändern.
Die Struktur-Tag-Informationen werden dann in die XML-Datei der Seite exportiert.
Darüber hinaus ist es möglich, die Texterkennung nur auf Textbereiche zu beschränken, die mit bestimmten Struktur-Tags markiert sind. Klicken Sie nach der Auswahl des Modells auf Konfigurieren und wählen Sie die entsprechenden Tags aus. Deaktivieren Sie die Markierung "Text aus anderen Bereichen löschen", um den Text in den anderen Textbereichen zu behalten. Diese Funktion ist zum Beispiel hilfreich, wenn Sie nur den Text eines bestimmten Textbereichs extrahieren möchten oder wenn Sie sowohl handschriftlichen als auch gedruckten Text haben und zwei verschiedene Modelle auf derselben Seite verwenden möchten.
Klicken Sie mit der rechten Maustaste auf eine Form, können Sie auch eine Beziehung zwischen den Formen hinzufügen. Auf diese Weise können Sie verwandte Layout-Elemente für weitere Anwendungsfälle verbinden. Die relationalen Daten werden auch in das XML des Dokuments integriert.
Die häufigste Art der Beziehung ist die Artikelrelation: Sie können sie verwenden, wenn der Text eines Artikels auf zwei oder mehr Spalten aufgeteilt ist, um die verschiedenen Textbereiche, aus denen der Artikel besteht, miteinander zu verknüpfen und die Lesereihenfolge anzugeben. In den Einstellungen können Sie neue Beziehungen erstellen, die zwei Typen haben können: folgen Sie und gleich wie.
Die strukturellen Informationen können auch verwendet werden, um ein P2PaLA-Modell zu trainieren (P2PaLA ist derzeit nur in Transkribus eXpert verfügbar. Sie können die Struktur Ihrer Seiten in Transkribus taggen und dann das P2PaLA-Modell trainieren und in Transkribus eXpert auf Ihre Dokumente anwenden.
Nächster Schritt: P2PaLA
Transkribus eXpert (veraltet)
Mit Struktur-Tags können Sie Ihre Dokumente in strukturelle Abschnitte wie Absätze, Überschriften oder Seitennummern unterteilen und auch benutzerdefinierte Tag-Kategorien für Ihre individuellen Anforderungen hinzufügen. Darüber hinaus ist es möglich, P2PaLa-Modelle zu trainieren, um die Struktur Ihrer Dokumente automatisch zu erkennen.
Sie müssen nicht alle Funktionen Ihrer Dokumente markieren: Konzentrieren Sie sich darauf, die Abschnitte zu markieren, an denen Sie interessiert sind.
Öffnen Sie zunächst Ihr Dokument in Transkribus eXpert. Die strukturelle Tagging-Schnittstelle finden Sie, indem Sie auf die Registerkarte "Metadaten" und dann auf die Registerkarte "Struktur" klicken. In der Mitte der Registerkarte können Sie die verschiedenen vordefinierten Strukturtypen sehen. < br >
Um Ihre eigenen Tag-Kategorien zu erstellen, klicken Sie auf die Schaltfläche "Anpassen". Das Fenster „Tag-Konfiguration“ wird geöffnet. Um eine neue Tag-Kategorie zu erstellen, geben Sie einfach den Namen in das leere Feld am unteren Rand des Fensters ein und klicken Sie dann auf die grüne Plus-Schaltfläche. In diesem Fenster können Sie auch die Tag-Farben anpassen, indem Sie auf den farbigen Abschnitt neben einem Tag klicken und dann die gewünschte Farbe auswählen. Die neuen Tags, die Sie erstellt haben, sind auch automatisch für alle Ihre Dokumente in allen Ihren Sammlungen verfügbar.
Sie können Text- und Linienbereichen auf jeder Seite in Ihrem Dokument Tags zuweisen. Um zuerst ein Tag zu platzieren, klicken Sie im Hauptmenü auf die Schaltfläche „Item visibility“ und stellen Sie sicher, dass Text- und Linienbereiche in Ihrem Dokument sichtbar sind. Wählen Sie den Text- oder Linienbereich im Bildfenster aus, klicken Sie mit der rechten Maustaste auf die ausgewählte Form und wählen Sie dann unter „Assign structure type“ (Strukturtyp zuweisen) das gewünschte Tag aus. Alternativ können Sie das Tag hinzufügen, indem Sie auf die grüne Plus-Schaltfläche rechts neben der gewünschten Tag-Kategorie auf der Registerkarte „Strukturell“ klicken.
Sie können mehrere Regionen gleichzeitig auswählen und markieren, indem Sie die „STRG“ -Taste auf Ihrer Tastatur gedrückt halten und dann auf Ihr Dokument klicken.
Die strukturelle Registerkarte ermöglicht Ihnen auch:
- Weisen Sie jeder Seite Ihres Dokuments einen "Seitentyp" zu. Mögliche Optionen sind: Frontcover, Backcover, Title, Table-of-Contents, Index, Content, Blank, Other. Wenn Sie Ihre Seite geöffnet haben, wählen Sie die entsprechende Definition aus, indem Sie auf den Pfeil neben den Optionen „Seitentyp“ klicken und dann den gewünschten Typ auswählen. Der Seitentyp ist für die P2PaLA-Schulung nicht relevant.
- Verknüpfen Sie zwei strukturelle Tags mit den Schaltflächen "Links", z. B. eine Verknüpfung zwischen einer Linie und der mit dieser Linie verbundenen Fußnote. Die erste Schaltfläche ist, einen solchen Link zu erstellen, und die zweite ist, ihn zu entfernen. Bitte beachten Sie, dass für das P2PaLA-Training die Verknüpfung von Shapes nicht relevant ist.
- Entfernen Sie ein strukturelles Tag: Wählen Sie die getaggte Region aus und klicken Sie dann auf die rote -Schaltfläche;
Anzeigen von Namen und Farben struktureller Tags im Bildfenster; - Klicken Sie auf die Stern-Schaltfläche neben jedem strukturellen Tag, um auf erweiterte Optionen zuzugreifen: Hier können Sie alle leeren Textbereiche mit dem strukturellen Tag Ihrer Wahl kommentieren; ein bestimmtes strukturelles Tag aus allen Seiten des Dokuments löschen; ein zugewiesenes strukturelles Tag mit einem anderen Namen umbenennen.
-
Abschnitt
- Layout: Hier finden Sie eine Übersicht der Strukturtypen in Ihrem Dokument und Ausschnitte von transkribiertem Text. Möglicherweise finden Sie es schneller, diese Liste zu konsultieren, als nach einer bestimmten Zeile oder einem bestimmten Textbereich im Bild zu suchen. Um zum gewünschten getaggten Text- oder Zeilenbereich zu gelangen, doppelklicken Sie auf den Bereich im Abschnitt „Layout“. Das Bild und der Texteditor springen automatisch zu dieser Zeile. Die Tags, die Sie hinzugefügt haben, werden in der Spalte „Struktur“ angezeigt. Neben dem Strukturtyp befindet sich ein kleiner Abwärtspfeil. Durch Anklicken können Sie das Struktur-Tag schnell ändern; wenn Sie auf das „Löschen“ klicken (es ist das erste Element der Liste), wird das Struktur-Tag gelöscht.
Die Strukturinformationen können auch für das Training eines P2PaLA-Modells verwendet werden, das automatisch die Struktur Ihrer Dokumente erkennen und sie markieren kann. Lesen Sie die P2PaLA-Seite , um zu erfahren, wie Sie die Trainingsdaten vorbereiten, ein Modell trainieren und auf neue Seiten anwenden.