Se l'impaginazione dei documenti è complessa o se si sta trascrivendo manualmente, puoi eseguire il Riconoscimento layout come fase separata per rilevare le regioni e le linee di testo
Il riconoscimento del layout è la segmentazione dell'immagine in regioni di testo e linee per collegare il testo e l'immagine.
La regione di testo è un rettangolo che racchiude tutto il testo scritto a mano contenuto nell'immagine/pagina.
La linea è una linea poligonale che corre lungo la parte inferiore della riga del testo scritto a mano ed è il punto di riferimento più importante per il riconoscimento del testo.
Il riconoscimento del layout viene eseguito automaticamente quando si avvia un lavoro di riconoscimento del testo, ma può anche essere eseguito come fase separata. Ci sono molte ragioni per farlo: ad esempio, quando si vuole usare Transkribus per trascrivere manualmente i documenti; quando si preparano le trascrizioni per addestrare un nuovo modello; oppure quando il layout della pagina è complesso (ad esempio una tabella).
Per eseguire il riconoscimento del layout come fase separata, seleziona le pagine o il documento da elaborare, quindi fai clic su "Riconoscimento" nel menu di sinistra, sotto "Tools".
Il modello "Universal Lines" è selezionato come predefinito: è sufficiente fare clic su "Iniziare il riconoscimento" per avviare il riconoscimento. È possibile controllarne l'avanzamento con il pulsante "Jobs".
Una volta terminato, apri la pagina e controlla il risultato del riconoscimento automatico del layout sull'immagine, che ora è segmentata in regioni di testo e linee.
Se il Riconoscimento automatico del layout non ha funzionato bene (es. ha saltato alcune righe o il raggruppamento delle righe nelle regioni di testo non è corretto), è possibile modificare le impostazioni di configurazione avanzata, come spiegato in questa pagina.
Passo successivo: Impostazioni avanzate di configurazione del layout
Transkribus eXpert (deprecato)
Il riconoscimento del layout è la segmentazione dell'immagine in regioni di testo, linee e linee di base per collegare il testo e l'immagine.
L'area di testo è un rettangolo che racchiude tutto il testo scritto a mano contenuto nell'immagine/pagina.
La linea di base (baseline) è una polilinea che corre lungo la parte inferiore della linea di testo scritta a mano ed è il punto di riferimento più importante per il riconoscimento del testo.
Le linee sono regioni situate all'interno di una regione di testo e possono essere descritte come poligoni, che racchiudono tutto il testo scritto a mano in una linea.
Il riconoscimento del layout viene eseguito automaticamente quando si avvia un lavoro di riconoscimento del testo, ma può anche essere eseguito come fase separata.
Per eseguire automaticamente l'Analisi del layout, andare alla scheda "Tools" nella Barra degli strumenti di gestione (sul lato sinistro dello schermo). La sezione che ci interessa è denominata "Layout Analysis".
Selezionare la pagina corrente, le pagine o i documenti da elaborare e fare clic su "Run" per avviare l'analisi del layout. L'analisi del layout verrà eseguita con le impostazioni predefinite (Horizontal Text Line Orientation model; General region detection method).
Per controllare l'avanzamento del lavoro, fare clic sul pulsante "Jobs". Al termine del lavoro, ricaricare la pagina o le pagine e le regioni di testo, le linee e le baselines appariranno sulla Immagine. La struttura del layout può essere visualizzata anche nella scheda "Layout", nella barra degli strumenti di gestione.
Se il riconoscimento automatico del layout ha dato risultati insoddisfacenti (ad esempio, ha saltato alcune linee o il raggruppamento delle linee nelle regioni di testo non è corretto), è possibile modificare le impostazioni di configurazione avanzate, come spiegato in questa pagina.