Die Auswahl des besten Texterkennungsmodells für Ihre Dokumente ist entscheidend, um gute automatische Transkripte zu haben
Vorheriger Schritt: Automatische Transkription Ihrer Dokumente
Das Wichtigste für gute Transkripte ist die Auswahl eines Modells, das für Ihre Dokumente geeignet ist . Es gibt kein allgemeines Modell für alle Handschriften und für die nächsten Jahre wird erwartet, dass spezialisierte Modelle notwendig bleiben werden.
Bei der Auswahl eines Textmodells müssen Sie Folgendes berücksichtigen:
- die Materialart, handschriftlich oder gedruckt;
- die Sprache;
- den Zeitraum;
- Skripttyp;
-
die Character Error Rate (CER):
Die Leistung eines Modells wird anhand des „Abstands“ zwischen einer perfekten Transkription und dem automatisch erkannten Text bestimmt. Sie wird anhand der Zeichenfehlerrate gemessen, d. h. dem Prozentsatz der Zeichen, die vom Texterkennungsmodell falsch transkribiert wurden. Schauen Sie sich diese Seite an, um mehr über die Zeichenfehlerrate zu erfahren.
Wenn Sie auf „Weitere Informationen“ klicken, können Sie eine Beschreibung des Modells lesen und sich die Statistiken ansehen (z. B. die Anzahl der Wörter, Zeilen und Seiten, an denen das Modell trainiert wurde).
Alle Modelle, die für die Texterkennung verwendet werden können, wurden mit PyLaia trainiert, der derzeit in Transkribus verfügbaren Engine zur Erkennung von handgeschriebenem Text. Es wurde von UPVLC (Universitat Politècnica de València) entwickelt und ist open-source.
Nächster Abschnitt: Öffentliche Modelle
Transkribus eXpert (veraltet)
Das Wichtigste für gute Transkripte ist, ein Modell auszuwählen, das für Ihre Dokumente geeignet ist. Es gibt kein allgemeines Modell für alle Handschriften und für die nächsten Jahre wird erwartet, dass spezialisierte Modelle notwendig bleiben.
Wenn Sie auf "HTR-Modell auswählen" klicken, öffnet sich ein Fenster: Auf der linken Seite des Fensters sehen Sie eine Übersicht der verfügbaren Modelle; oben rechts im Fenster werden die Details des Modells angezeigt.
Bei der Auswahl eines Textmodells müssen Sie Folgendes berücksichtigen:
- die Art des Materials, handschriftlich oder gedruckt; Sprache; den Zeitraum;
- die Art des Skripts;
- < em> die Zeichenfehlerrate.
Alle Modelle, die für die Texterkennung verwendet werden können, wurden mit PyLaia trainiert, der derzeit in Transkribus verfügbaren Engine zur Erkennung handschriftlicher Texte. Es wurde von UPVLC (Universitat Politècnica de València) entwickelt und ist open-source.