2. Preparazione dei dati

Trascrivi almeno 25 pagine prima di addestrare un modello di riconoscimento del testo: queste pagine saranno i dati (Ground Truth) su cui il modello si addestrerà e imparerà a riconoscere una nuova scrittura


Prima di iniziare l'addestramento di un modello di riconoscimento testuale, è necessario preparare i dati di Ground Truth, cioè le immagini e le corrispondenti trascrizioni accurate su cui il modello apprenderà.

Ground Truth è un termine utilizzato nel Machine Learning. In Transkribus, viene utilizzato per indicare le immagini e le corrispondenti trascrizioni utilizzate per addestrare l'intelligenza artificiale. Le trascrizioni devono essere il più possibile accurate, perché qualsiasi errore nella Ground Truth addestrerà il modello ad apprendere erroneamente.

A seconda del tipo di materiale e del numero di mani, per iniziare sono necessarie tra le 5.000 e le 15.000 parole (circa 25-75 pagine) di materiale trascritto. In generale, le reti neurali del motore di riconoscimento del testo imparano rapidamente: più dati di addestramento hanno, migliori saranno i risultati.

Se si lavora su materiale a stampa, 5.000 parole dovrebbero essere sufficienti per ottenere un buon tasso di Character Error Rate.

Nel caso di documenti manoscritti, il nostro consiglio è di addestrare il modello su almeno 10.000 parole per ogni mano. I modelli addestrati su training set di grandi dimensioni (più di 100.000 parole) che comprendono molte mani dello stesso periodo e della stessa regione dovrebbero essere in grado di riconoscere mani non viste in alcun modo durante l'addestramento: i risultati, tuttavia, saranno probabilmente un po' peggiori rispetto al Character Error Rate (che viene misurato sul validation set).

Il Ground Truth dovrebbe includere esempi di tutti le scritture che si desidera che il modello sia in grado di trascrivere. È possibile addestrare modelli in grado di riconoscere due o più mani, lingue, tipi di scrittura o alfabeti contemporaneamente: tuttavia, tutte queste varianti devono essere presenti in modo rappresentativo nel Ground Truth.

Le pagine da includere nel Ground Truth sono quindi importanti perché influiscono sull'efficacia del modello. Per esempio, se si vuole addestrare un modello che riconosca le mani di tre scrittori diversi, si dovranno trascrivere circa 10.000 parole per ogni scrittore. Nel caso di uno scrittore la cui calligrafia è cambiata nel corso del tempo, il Ground Truth dovrebbe comprendere pagine scritte in diversi anni che siano rappresentative dei cambiamenti.

Per creare il Ground Truth, ci sono due modi:

  1. Manualmente:
    Eseguire il riconoscimento del layout sulle pagine da includere nel Ground Truth e trascriverle accuratamente, come spiegato nella pagina Trascrizione manuale. Quindi salvarli come Ground Truth.

  2. In parte automaticamente, in parte manualmente:
    Se esiste un modello di riconoscimento del testo che funziona sufficientemente bene sui vostri documenti, ma volete addestrarne uno più preciso, potete prima eseguire il modello sui vostri documenti, come spiegato in questa pagina. Correggete, quindi, manualmente le trascrizioni generate automaticamente e salvatele come Ground Truth.

In entrambi i casi, è importante che le trascrizioni di Ground Truth siano il più possibile accurate e corrette e che siate coerenti con le vostre scelte editoriali.

Convenzioni

L'approccio più comune consiste nel creare una trascrizione fedele, che rappresenti accuratamente ciò che si legge nel documento, compresi gli errori e la punteggiatura. Questo è il caso di una trascrizione diplomatica: parole combinate, maiuscole e minuscole, apici e pedici e segni di punteggiatura sono tutti trascritti così come appaiono nel documento. Il vantaggio di questo approccio è un modello forte che trascrive esattamente ciò che viene mostrato nell'immagine.

Tuttavia, le reti neurali possono imparare, in una certa misura, ad applicare le nostre convenzioni di trascrizione. Se le convenzioni sono adottate in modo coerente in tutte le nostre trascrizioni e il Ground Truth è sufficientemente ampio, il modello potrebbe imparare a separare le parole che compaiono scritte attaccate nei documenti, a normalizzare l'ortografia storica, a trascrivere apici e pedici in linea con il resto del testo e a risolvere le abbreviazioni (cfr. il punto successivo).

In particolare:

  • Caratteri critici (ad esempio accenti, circonflessi, cediglie, trattini, tilde): dipende dall'utente se vuole che il modello di riconoscimento del testo effettui una trascrizione diplomatica o normalizzi le parole secondo l'ortografia moderna. Entrambi gli approcci vanno bene, basta sceglierne uno ed essere coerenti.

  • i/j e I/J: le lettere "i" e "j" venivano spesso utilizzate in modo intercambiabile. Si può decidere di trascrivere le lettere come appaiono nel documento o di seguire l'ortografia in uso oggi.

    • u/v e U/V: i documenti storici usano spesso la "v" all'inizio delle parole e la "u" al centro e alla fine. Si può decidere di trascrivere le lettere come appaiono nel documento o di seguire l'ortografia in uso oggi.
    • Legature: sono combinazioni comuni di lettere per formare un nuovo carattere. Possono essere trascritti per intero, utilizzando i singoli caratteri che compongono la legatura (ad esempio, "præs" diventa "praes").
    • Lettera S: la lettera "s" può apparire in diverse forme. La "s" normale e quella lunga (con il discensore) possono essere trascritte entrambe come "s" normale o, a seconda della loro forma, come "s" o "ſ" (U-017F). Le doppie "s" o "ß" (sharp "s" o "Eszett") sono trascritte secondo il testo originale.
    • Parole sillabate: quando le parole sillabate appaiono alla fine della riga, devono essere trascritte e suddivise secondo il testo originale. Aggiungere un "-" alla fine della riga solo se presente.
    • Stili di testo: con il pulsante Tag è possibile etichettare parole o porzioni di parole come grassetto, corsivo, barrato, sottolineato, apice o pedice. Se si addestrano questi tag durante l'addestramento del modello, i tag verranno aggiunti automaticamente durante il riconoscimento di nuove pagine (per ora, questa funzione è disponibile solo in Transkribus eXpert: per saperne di più, consultare la pagina Setup e addestramento del modello).
    • Fonts: font diversi come Kurrent o Antiqua non sono contrassegnati in modo particolare.

    Ogni utente può utilizzare le convenzioni più adatte alle proprie esigenze. L'importante è essere coerenti: si consiglia di prendere nota delle decisioni prese durante la trascrizione delle pagine di Ground Truth e di aggiungere le convenzioni utilizzate nel campo Dettagli del modello di riconoscimento del testo.

    Abbreviazioni

    In base alle proprie esigenze, si può decidere di addestrare il modello a:

    • Mantenere la forma abbreviata: trascrivere le abbreviazioni così come appaiono nei documenti, utilizzando i caratteri base o i caratteri speciali più simili a quelli scritti dallo scrittore.
    • Trascrivere la forma espansa: le reti neurali sono spesso in grado di imparare a riconoscere e utilizzare le espansioni, soprattutto se compaiono frequentemente. È sufficiente scrivere l'espansione dell'abbreviazione nelle trascrizioni, facendo attenzione a scioglierle sempre nello stesso modo. 
    • Tagare l'abbreviazione e aggiungere l'espansione corrispondente come proprietà: nel Ground Truth, trascrivere le abbreviazioni così come appaiono, taggarle e aggiungere la forma espansa nel campo "expansion" (proprietà del tag Abbreviation).Quando si addestra il modello, selezionare l'opzione per addestrare anche i tag abbreviazione con le espansioni (per ora, questa funzione è disponibile solo in Transkribus eXpert: per saperne di più, consultare la pagina Setup e addestramento del modello).

     

     


     

    Transkribus eXpert (deprecato)

    Prima di iniziare l'addestramento di un modello di riconoscimento testuale, è necessario preparare i dati di Ground Truth, cioè le immagini e le corrispondenti trascrizioni accurate su cui il modello dovrà imparare. 

    Ground Truth è un termine utilizzato nel Machine Learning. In Transkribus, viene utilizzato per indicare le immagini e le corrispondenti trascrizioni utilizzate per addestrare l'intelligenza artificiale. Le trascrizioni devono essere il più possibile accurate, perché qualsiasi errore nella Ground Truth addestrerà il modello ad apprendere qualcosa di sbagliato. 

    A seconda del tipo di materiale e del numero di mani, per iniziare sono necessarie tra le 5.000 e le 15.000 parole (circa 25-75 pagine) di materiale trascritto. In generale, le reti neurali del motore di riconoscimento del testo scritto a mano imparano rapidamente: più dati di addestramento hanno, migliori saranno i risultati.

    Se si lavora su materiale stampato, 5.000 parole dovrebbero essere sufficienti per ottenere un buon tasso di Character Error Rate. 

    Nel caso di documenti scritti a mano, il nostro consiglio è di addestrare il modello su almeno 10.000 parole per ogni mano. I modelli addestrati su dati di formazione di grandi dimensioni (più di 100.000 parole) che comprendono molte mani dello stesso periodo e della stessa regione dovrebbero essere in grado di riconoscere mani non viste in alcun modo durante l'addestramento: i risultati, tuttavia, saranno probabilmente un po' peggiori rispetto al Character Error Rate (che viene misurato sul Validation Set).

    Il Ground Truth dovrebbe includere esempi di tutte le scritture che si vuole che il modello sia in grado di trascrivere. È possibile addestrare modelli in grado di riconoscere due o più mani, lingue, tipi di scrittura o alfabeti contemporaneamente: tuttavia, tutte queste varianti devono essere presenti in modo rappresentativo nel Ground Truth.

    Le pagine da includere nel Ground Truth sono quindi importanti perché influiscono sull'efficacia del modello. Se si vuole addestrare un modello che riconosca le mani di tre scrittori diversi, si dovranno trascrivere circa 10.000 parole per ogni scrittore. Nel caso di uno scrittore la cui calligrafia è cambiata nel corso del tempo, il Ground Truth dovrebbe comprendere pagine scritte in diversi anni che siano rappresentative dei cambiamenti.

    Per creare il Ground Truth, ci sono due modi:

    1. Manualmente:
      Eseguire il Riconoscimento layout sulle pagine da includere nella Ground Truth; trascriverle accuratamente nell'editor di testo e salvarle come Ground Truth.

    2. In parte automaticamente, in parte manualmente:
      Se esiste un modello di riconoscimento del testo che funziona sufficientemente bene sui vostri documenti, ma volete addestrarne uno più preciso, potete prima eseguire il modello sulle vostre pagine. Correggete, quindi, manualmente le trascrizioni generate automaticamente e salvatele come Ground Truth.

    In entrambi i casi, è importante che le trascrizioni di Ground Truth siano il più possibile accurate e corrette e che siate coerenti con le vostre scelte editoriali.

    Convenzioni

    L'approccio più comune consiste nel creare una trascrizione fedele, che rappresenti accuratamente ciò che si legge nel documento, compresi gli errori e la punteggiatura. Questo è il caso di una trascrizione diplomatica: parole combinate, maiuscole e minuscole, apici e pedici e segni di punteggiatura sono tutti trascritti così come appaiono nel documento. Il vantaggio di questo approccio è un modello solido che trascrive esattamente ciò che viene mostrato nell'immagine.

    Tuttavia, le reti neurali possono imparare, in una certa misura, ad applicare le nostre convenzioni di trascrizione. Se le convenzioni sono adottate in modo coerente in tutte le nostre trascrizioni e il Ground Truth è sufficientemente ampio, il modello potrebbe imparare a separare le parole che compaiono scritte attaccate nel documento, a normalizzare l'ortografia storica, a trascrivere apici e pedici in linea con il resto del testo, a risolvere le abbreviazioni (si veda il punto successivo).

    In particolare:

    • Caratteri critici (ad esempio accenti, circonflessi, cediglie, trattini, tilde): dipende dall'utente se vuole che il modello di riconoscimento del testo effettui una trascrizione diplomatica o normalizzi le parole secondo l'ortografia moderna. Entrambi gli approcci vanno bene, basta sceglierne uno ed essere coerenti.
    • i/j e I/J: le lettere "i" e "j" erano spesso usate in modo intercambiabile. Si può decidere di trascrivere le lettere così come appaiono nel documento o di seguire l'ortografia in uso oggi.
    • u/v e U/V: i documenti storici usano spesso la "v" all'inizio delle parole e la "u" al centro e alla fine. Si può decidere di trascrivere le lettere così come appaiono nel documento o di seguire l'ortografia in uso oggi.
    • Legature: sono combinazioni comuni di lettere per formare un nuovo carattere. Possono essere trascritte per intero, utilizzando i singoli caratteri che compongono la legatura (ad esempio, "præs" diventa "praes").
    • Lettera S: la lettera "s" può apparire in diverse forme. La "s" normale e quella lunga (con il discensore) possono essere trascritte entrambe come "s" normale o, a seconda della loro forma, come "s" o "ſ" (U-017F). Le doppie "s" o "ß" (sharp "s" o "Eszett") sono trascritte secondo il testo originale.
    • Parole sillabate: quando le parole sillabate appaiono alla fine della riga, devono essere trascritte e suddivise secondo il testo originale. Aggiungere un "-" alla fine della riga solo se presente.
    • Stili di testo: con la Barra di formattazione in fondo all'Editor di testo, è possibile etichettare parole o porzioni di parole come grassetto, corsivo, pedice, apice, sottolineato e barrato. Se si addestrano questi tag durante l'addestramento del modello, i tag verranno aggiunti automaticamente durante il riconoscimento di nuove pagine (per saperne di più, consultare la pagina di Setup e addestramento del modello).
    • Fonts: font diversi come Kurrent o Antiqua non sono contrassegnati in modo particolare.

    Ogni utente può utilizzare le convenzioni più adatte alle proprie esigenze. L'importante è essere coerenti: si consiglia di prendere nota delle proprie decisioni durante la trascrizione delle pagine e di annotare le convenzioni utilizzate nel campo Dettagli del modello.

    Abbreviazioni

    In base alle proprie esigenze, si può decidere di addestrare il modello a:

    • Mantenere la forma abbreviata: trascrivere le abbreviazioni così come appaiono nei documenti, utilizzando i caratteri base o i caratteri speciali più simili a quelli scritti dallo scrittore.
    •  Trascrivere la forma espansa: le reti neurali sono spesso in grado di imparare a riconoscere e utilizzare le espansioni, soprattutto se compaiono frequentemente. Basta scrivere le espansioni delle abbreviazioni nelle trascrizioni, facendo attenzione a risolverle sempre nello stesso modo. 
    • Tagare l'abbreviazione e aggiungere l'espansione corrispondente come proprietà: nella Ground Truth, trascrivere le abbreviazioni così come appaiono, taggarle e aggiungere la forma espansa nel campo "expansion" (proprietà del tag Abbreviation).Durante l'addestramento del modello, selezionare l'opzione per addestrare anche i tag Abbreviation con le espansioni (per maggiori informazioni, consultare il sito pagina di Setup e addestramento del modello).