Geringfügige Änderungen an der Layout-Konfiguration können Ihnen helfen, bessere Ergebnisse bei der Erkennung von Zeilen und Textbereichen zu erzielen
Vorheriger Schritt: Automatische Layout-Erkennung
Wir empfehlen, die automatische Layout-Erkennung zunächst mit den Standardeinstellungen auszuprobieren. Je nach Ihrem Material müssen Sie jedoch möglicherweise einige dieser Einstellungen ändern, um optimale Ergebnisse zu erzielen.
Um auf die Layout-Konfigurationseinstellungen zuzugreifen, wählen Sie die zu verarbeitende(n) Seite(n) aus, klicken Sie auf "Texterkennung" und verwenden Sie das Dropdown-Menü, um "Layout" anstelle von "Texterkennung" auszuwählen.
Bei einem komplexen Layout kann dies ein Versuch-und-Irrtum-Prozess sein. Versuchen Sie, einige der Einstellungen je nach den Problemen mit Ihrer Art von Material zu ändern, und lassen Sie die Layout-Erkennung auf einigen Seiten laufen, um die Einstellungen zu testen.
1) Layout-Modell
Als Erstes müssen Sie das zu verwendende Layout-Modell auswählen:
- Horizontal Text Line Orientation (standardmäßig ausgewählt): wenn Ihre Dokumente ein homogenes Layout haben, d. h. nur horizontale und vertikale Linien.
- Mixed Text Line Orientation: wenn Ihre Dokumente ein heterogenes Layout haben, d. h. Linien in allen Richtungen.
- Benutzerdefiniertes Baselines-Modell: wenn Sie ein spezifisches Baselines-modell für Ihre Dokumenttypologie trainiert haben, wie auf der Seite Baselines-Modelle erläutert.
2) Textregionen
Sie können wählen:
-
Neue Textregionen generieren:
Nachdem die Zeilen erkannt wurden, werden sie in Textregionen geclustert. Es stehen zwei Clustermethoden zur Verfügung:
-
General (Standard): Die Zeilen werden von links nach rechts geclustert.
Um das Clustering zu verbessern, setzen Sie die Textzeilenausrichtung auf "Horizontal", wenn Ihre Dokumente nur horizontale Zeilen haben, oder auf "Mixed", damit der Algorithmus annimmt, dass die Zeilen um 0, 90, 180 und 270 Grad gedreht sind. -
Custom: Es handelt sich um ein einfaches agglomeratives Clustering, das auf dem äußersten linken Punkt jeder Zeile basiert. Es clustert die Zeilen auf der Grundlage ihres Abstands. Sie können wählen zwischen einer Textregion, wenigen, mittleren oder vielen Textregionen pro Bild.
-
-
Vorhandene Textregionen beibehalten:
Wählen Sie diese Option, wenn Sie die Textbereiche, die Sie interessieren (z. B. für Tabellen), bereits manuell gezeichnet haben, wie auf der Seite Manuelle Layouterkennung erläutert.
Darüber hinaus können Sie damit:
-
auf Strukturtypen einschränken: die Linienerkennung auf die Textbereiche beschränken, die mit bestimmten Strukturtypen gekennzeichnet sind.
-
Linien an der Regionsgrenze aufteilen: Die Linien müssen sich strikt an die Regionsgrenze halten, um zu verhindern, dass nahe beieinander liegende, aber zu verschiedenen Regionen gehörende Linien zu einer langen Linie verschmolzen werden.
Sie können den minimalen Überlappungsanteil zwischen einer erkannten Zeile und einer bestehenden Textregion erhöhen, wenn Sie möchten, dass die Zeile etwas über die Regionsgrenze hinausgeht. Wenn sich eine Linie jedoch mit mehreren Regionen überschneidet, wird die Region mit der größten Überschneidung ausgewählt.
-
3) Bildskalierung
Sie können entscheiden, ob Sie niedrig aufgelöste Bilder hochskalieren oder hoch aufgelöste Bilder herunterskalieren möchten.
Wir empfehlen, diese Funktion nur dann auszuprobieren, wenn die Layouterkennung mit der Standardeinstellung nicht funktioniert (z. B. wenn keine oder nur wenige Zeilen erkannt werden).
4) Grundlinien-Optionen
Diese Optionen bieten Ihnen die Möglichkeit, Parameter für die Linienerkennung einzustellen. Sie sind besonders nützlich, wenn zu wenige/zu viele Linien erkannt wurden oder wenn sie verbunden oder getrennt wurden, obwohl sie das nicht sollten.
- Minimal baseline length:
Sie gibt die Mindestlänge der Linien in Pixeln an. Linien, die kürzer als diese Länge sind, werden nicht erkannt. - Baseline accuracy threshold:
In der ersten Stufe der Layout-Erkennung wird jedes Pixel als Grundlinie, Trennlinie oder Sonstiges gekennzeichnet. Der Schwellenwert für die Grundliniengenauigkeit gilt für die Kennzeichnung der Grundlinie in dieser Phase.
Er liegt zwischen 0 und 255, wobei höhere Werte eine höhere Genauigkeit bei den erkannten Grundlinien erzwingen. - Use trained separators:
Trennlinien sind kleine vertikale Linien, die neben jeder Grundlinie gezeichnet werden; sie markieren den Anfang und das Ende jeder Grundlinie (nicht zu verwechseln mit den tatsächlichen Trennlinien in gedruckten Dokumentenbildern). Wie der Schwellenwert für die Grundliniengenauigkeit bezieht sich auch der Schwellenwert für die Trennlinien auf die erste Phase, in der die Pixel beschriftet werden.
Der Schwellenwert für die Trennliniengenauigkeit liegt zwischen 0 und 255: 0 bedeutet, dass überhaupt keine Trennlinien verwendet werden; bei einem höheren Wert werden Trennlinien verwendet, so dass nahe beieinander liegende Grundlinien tendenziell nicht zusammengeführt werden.
In der Regel reichen niedrige Werte aus, um eine Verbindung zwischen benachbarten Grundlinien zu verhindern. - Max-dist for merging:
In der zweiten Stufe versucht der Algorithmus, nahegelegene Grundlinien zu verschmelzen, aber nur, wenn ihr Abstand kleiner als ein festgelegter Wert ist.
Setzen Sie ihn auf: "Niedrig", um nur die nächstgelegenen Linien zu verschmelzen (näher als 0,5 % der Bildbreite); "Mittel", um Linien zu verschmelzen, die näher als 1 % der Bildbreite sind; "Hoch", um Linien zu verschmelzen, die recht weit voneinander entfernt sind, aber näher als 5 % der Bildbreite.
Die Einstellung "Mittel" sollte in den meisten Fällen gut funktionieren.
Nächster Schritt: Manuelle Layout-Erkennung
Transkribus eXpert (veraltet)
Wir empfehlen, die automatische Layout-Erkennung zunächst mit den Standardeinstellungen auszuprobieren. Je nach Ihrem Material müssen Sie jedoch möglicherweise einige dieser Einstellungen ändern, um optimale Ergebnisse zu erzielen.
Um auf die Layout-Konfigurationseinstellungen zuzugreifen, gehen Sie zum Abschnitt "Layoutanalyse" auf der Registerkarte "Werkzeuge" in der Verwaltungs- und Werkzeugleiste (auf der linken Seite des Bildschirms).
Bei einem komplexen Layout kann dies ein Versuch-und-Irrtum-Prozess sein. Versuchen Sie, einige der Einstellungen je nach den Problemen mit Ihrer Art von Material zu ändern, und führen Sie die Layout-Analyse auf einigen Seiten durch, um die Einstellungen zu testen.
Klicken Sie auf "Konfigurieren" rechts neben "Methode", um das Fenster "Layoutanalyse-Konfiguration" zu öffnen. Die Einstellungen, die Sie konfigurieren können, sind:
1) Layout-Modell
Als erstes wählen Sie das zu verwendende Layoutmodell:
- Horizontal Text Line Orientation (standardmäßig ausgewählt): wenn Ihre Dokumente ein homogenes Layout haben, d. h. nur horizontale und vertikale Linien.
- Mixed Text Line Orientation: wenn Ihre Dokumente ein heterogenes Layout haben, d. h. Linien in allen Richtungen.
- Benutzerdefiniertes Baselines-Modell: wenn Sie ein spezifisches Baselines-modell für Ihre Dokumenttypologie trainiert haben, wie auf der Seite Baselines-Modelle erläutert.
Klicken Sie auf den Namen des Modells, um das Fenster mit der Liste aller öffentlichen Modelle sowie der privaten Baselines-Modelle, die Sie trainiert haben, zu öffnen.
2) Einstellungen für die Baseline-Erkennung
Diese Optionen bieten Ihnen die Möglichkeit, Parameter für die Baseline-Erkennung einzustellen. Sie sind besonders nützlich, wenn zu wenige/zu viele Grundlinien erkannt wurden oder wenn sie verbunden oder getrennt wurden, obwohl sie das nicht sollten. Für jeden Parameter können Sie einen der drei vorgeschlagenen Werte (Niedrig, Mittel, HochI) wählen oder den Wert manuell anpassen.
- Minimal baseline length:
Sie gibt die Mindestlänge der Linien in Pixeln an. Linien, die kürzer als diese Länge sind, werden nicht erkannt. - Baseline accuracy threshold:
In der ersten Stufe der Layout-Erkennung wird jedes Pixel als Grundlinie, Trennlinie oder Sonstiges gekennzeichnet. Der Schwellenwert für die Grundliniengenauigkeit gilt für die Kennzeichnung der Grundlinie in dieser Phase.
Er liegt zwischen 0 und 255, wobei höhere Werte eine höhere Genauigkeit bei den erkannten Grundlinien erzwingen. - Use trained separators:
Trennlinien sind kleine vertikale Linien, die neben jeder Grundlinie gezeichnet werden; sie markieren den Anfang und das Ende jeder Grundlinie (nicht zu verwechseln mit den tatsächlichen Trennlinien in gedruckten Dokumentenbildern). Wie der Schwellenwert für die Grundliniengenauigkeit bezieht sich auch der Schwellenwert für die Trennlinien auf die erste Phase, in der die Pixel beschriftet werden.
Der Schwellenwert für die Trennliniengenauigkeit liegt zwischen 0 und 255: 0 bedeutet, dass überhaupt keine Trennlinien verwendet werden; bei einem höheren Wert werden Trennlinien verwendet, so dass nahe beieinander liegende Grundlinien tendenziell nicht zusammengeführt werden.
In der Regel reichen niedrige Werte aus, um eine Verbindung zwischen benachbarten Grundlinien zu verhindern. - Max-dist for merging:
In der zweiten Stufe versucht der Algorithmus, nahegelegene Grundlinien zu verschmelzen, aber nur, wenn ihr Abstand kleiner als ein festgelegter Wert ist.
Setzen Sie ihn auf: "Niedrig", um nur die nächstgelegenen Linien zu verschmelzen (näher als 0,5 % der Bildbreite); "Mittel", um Linien zu verschmelzen, die näher als 1 % der Bildbreite sind; "Hoch", um Linien zu verschmelzen, die recht weit voneinander entfernt sind, aber näher als 5 % der Bildbreite.
Die Einstellung "Mittel" sollte in den meisten Fällen gut funktionieren. - Image scaling:
Sie können entscheiden, ob Sie niedrig aufgelöste Bilder hochskalieren oder hoch aufgelöste Bilder herunterskalieren möchten.
Wir empfehlen, diese Funktion nur dann auszuprobieren, wenn die Layouterkennung mit der Standardeinstellung nicht funktioniert (z. B. wenn keine oder nur wenige Zeilen erkannt werden).
3) Einstellungen für die Bereichserkennung
Nachdem die Grundlinien erkannt wurden, werden sie in Textregionen geclustert. Es sind zwei Clustermethoden verfügbar:
- General (Standard): Die Zeilen werden von links nach rechts geclustert.
Um das Clustering zu verbessern, setzen Sie die Textzeilenausrichtung auf "Horizontal", wenn Ihre Dokumente nur horizontale Zeilen haben, oder auf "Mixed", damit der Algorithmus annimmt, dass die Zeilen um 0, 90, 180 und 270 Grad gedreht sind. - Custom: Es handelt sich um ein einfaches agglomeratives Clustering, das auf dem äußersten linken Punkt jeder Zeile basiert. Es clustert die Zeilen auf der Grundlage ihres Abstands.
Sie können wählen, ob Sie eine Textregion, wenige, mittlere oder viele Textregionen pro Bild haben möchten.
Es kann vorkommen, dass Sie die Textbereiche, die Sie interessieren, von Hand gezeichnet haben (z. B. für Tabellen), wie auf der Seite Manuelle Layout-Erkennung erläutert, und Sie möchten nur die Grundlinien erkennen und die vorhandenen Textbereiche beibehalten. Deaktivieren Sie im Abschnitt "Layout Analysis" auf der Registerkarte "Tools" die Option "Find Text-regions", bevor Sie die Layoutanalyse starten.
Wenn Sie die vorhandenen Textregionen beibehalten, ist es auch möglich:
- auf Struktur-Tags einschränken: die Erkennung der Grundlinie auf die Textregionen beschränken, die mit bestimmten Struktur-Tags gekennzeichnet sind.
- Zeilen auf Regionen aufteilen: Die Zeilen müssen sich strikt an die Regionsgrenzen halten, damit nahe beieinander liegende Zeilen, die aber zu verschiedenen Regionen gehören, nicht zu einer langen Zeile zusammengefügt werden.
Sie können den minimalen Überlappungsanteil zwischen einer erkannten Zeile und einer bestehenden Textregion erhöhen, wenn Sie möchten, dass die Zeile etwas über die Regionsgrenze hinausgeht. Überschneidet sich eine Zeile jedoch mit mehreren Regionen, wird die Region mit der größten Überschneidung ausgewählt.