Piccole modifiche alla configurazione del layout possono aiutare a ottenere risultati migliori in termini di riconoscimento delle linee e delle regioni di testo
Passaggio precedente: Riconoscimento automatico del layout
Consigliamo di provare prima il riconoscimento automatico del layout con le impostazioni predefinite. Tuttavia, a seconda del tipo di documenti, potrebbe essere necessario modificare alcuni parametri per ottenere risultati ottimali.
Per accedere alle impostazioni di configurazione del layout, selezionare la pagina o le pagine da elaborare, fai clic su "Riconoscimento" e seleziona "Layout" nel menu in alto.
Per layout complessi, si procede per tentativi ed errori. Prova a modificare alcune impostazioni in base ai problemi del tuo tipo di materiale ed esegui il riconoscimento del layout su alcune pagine per testare le impostazioni. Puoi trovare le impostazioni avanzate ("Advanced Settings") cliccando il bottone sotto la barra dei documenti selezionati.
a) Modello di layout
La prima cosa da scegliere è il modello di layout da utilizzare:
- Universal Lines (selezionato come predefinito): modello generale attualmente utilizzato nella piattaforma; raccomandiamo di usare questo modello se non sei sicuro di quale modello sia il più adatto alle caratteristiche del tuo materiale.
- Horizontal Text Line Orientation: quando i documenti hanno un layout omogeneo, cioè solo linee orizzontali e verticali.
- Mixed Text Line Orientation: quando i documenti hanno un layout eterogeneo, cioè linee in tutte le direzioni.
- Modello Baselines personalizzato: quando è stato addestrato un modello Baselines specifico per la tipologia di documento, come spiegato nella pagina Modelli Baselines.
b) Opzioni avanzate
1) Creazione di Regioni di Testo
È possibile scegliere tra:
- Generare nuove regioni di testo:
Dopo aver rilevato le linee, queste vengono raggruppate in regioni di testo. - Mantenere le regioni di testo esistenti:
Scegli questa opzione se hai già creato manualmente le regioni di testo che ti interessano (es. tabelle), come spiegato nella pagina Riconoscimento manuale del layout.
Inoltre, questa opzione consente di restringere l'operazione a tipi di strutture: questo limiterà il rilevamento delle linee alle regioni di testo descritte da determinati tag strutturali.
2) Metodo di creazione delle Regioni di Testo
Sono disponibili due metodi di raggruppamento:- Generale (predefinito): raggruppa le linee da sinistra a destra.
Per migliorare il raggruppamento, imposta l'orientamento delle linee di testo su "Orizzontale" se i documenti hanno solo linee orizzontali o su "Misto" per far sì che l'algoritmo assuma che le linee siano ruotate di 0, 90, 180 e 270 gradi. - Custom / Personalizzato: è un semplice raggruppamento agglomerativo basato sul punto più a sinistra di ogni riga. Consente di raggruppare le linee in base alla loro distanza. Si può scegliere di avere una sola regione di testo, poche, alcune o molte regioni di testo per immagine.
3) Ridimensionamento dell'immagine
È possibile eseguire l'upscaling delle immagini a bassa risoluzione o il downscaling delle immagini ad alta risoluzione.
Si consiglia di provare questa funzione solo quando il riconoscimento del layout non funziona con l'impostazione predefinita (es. non rileva nessuna o poche linee).
4) Opzioni baselines
Queste opzioni offrono la possibilità di impostare i parametri per il rilevamento delle linee. Sono particolarmente utili se sono state riconosciute troppe o troppo poche linee o se sono state unite o separate quando non dovrebbero.
- Minimal baseline length:
indica la lunghezza minima delle linee in pixel. Le linee più corte di questa lunghezza non vengono rilevate. - Baseline accuracy threshold:
nella prima fase del riconoscimento del layout, ogni pixel viene etichettato come baselines, separatori o altro. La soglia di precisione delle baselines si applica all'etichettatura delle baselines in questa fase.
È compresa tra 0 e 255 e i valori più alti comportano una maggiore accuratezza delle baselines rilevate. - Use trained separators:
i separatori sono piccole linee verticali tracciate accanto a ogni baseline; segnano l'inizio e la fine di ogni baseline (non vanno confusi con i separatori reali nelle immagini dei documenti stampati). Come per la soglia di accuratezza delle baselines, la soglia dei separatori si riferisce alla prima fase, quando i pixel vengono etichettati.
La soglia dei separatori è compresa tra 0 e 255: 0 significa che i separatori non vengono utilizzati affatto; con un valore più alto, i separatori vengono utilizzati e quindi le linee di base vicine tendono a non essere unite.
Di solito, valori bassi sono sufficienti per evitare una connessione tra linee di base vicine. - Max-dist for merging:
nella seconda fase, l'algoritmo cerca di unire le baseline vicine, ma solo quando la loro distanza è inferiore a un valore stabilito.
Impostalo su: "Basso" per unire solo le linee più vicine (più vicine dello 0,5% della larghezza dell'immagine); "Medio" per unire linee più vicine dell'1% della larghezza dell'immagine; "Alto" per unire linee abbastanza distanti, ma più vicine del 5% della larghezza dell'immagine.
"Medio" dovrebbe funzionare bene nella maggior parte dei casi. - Split lines on region border (se mantieni le regioni già esistenti):
seleziona questa opzione per fare in modo che le linee rispettino rigorosamente il bordo della regione, evitando che linee vicine tra loro ma appartenenti a regioni diverse vengano unite come un'unica lunga linea. - Line overlap fraction:
puoi aumentare la frazione di sovrapposizione minima tra una linea rilevata e una regione di testo esistente, se vuoi che la linea si estenda leggermente oltre il bordo della regione. Se una linea si sovrappone a più regioni, tuttavia, viene scelta la regione con la maggiore sovrapposizione.
Passo successivo: Riconoscimento manuale del layout
Transkribus eXpert (deprecato)
Si consiglia di provare prima il riconoscimento automatico del layout con le impostazioni predefinite. Tuttavia, a seconda del materiale, potrebbe essere necessario modificare alcuni parametri per ottenere risultati ottimali.
Per accedere alle impostazioni di configurazione del layout, accedere alla sezione "Layout Analysis" nella scheda "Tools" della barra Gestione e strumenti (sul lato sinistro dello schermo).
Per layout complessi, si procede per tentativi ed errori. Provate a modificare alcune impostazioni in base ai problemi del vostro tipo di materiale ed eseguite il riconoscimento del layout su alcune pagine per testare le impostazioni.
Fare clic su "Configure", a destra di "Method", per aprire la finestra di configurazione dell'analisi del layout. Le impostazioni che si possono configurare sono:
1) Modello di layout
La prima cosa da scegliere è il modello di layout da utilizzare:
- Horizontal Text Line Orientation (selezionato come impostazione predefinita): quando i documenti hanno un layout omogeneo, cioè solo linee orizzontali e verticali.
- Mixed Text Line Orientation: quando i documenti hanno un layout eterogeneo, cioè linee in tutte le direzioni.
- Modello Baselines personalizzato: quando è stato addestrato un modello Baselines specifico per la tipologia di documento, come spiegato nella pagina Modelli Baselines.
Fare clic sul nome del modello per aprire la finestra con l'elenco di tutti i modelli pubblici e dei modelli Baselines privati che sono stati addestrati.
2) Impostazioni del rilevamento delle baselines:
Queste opzioni consentono di impostare i parametri per il rilevamento delle baselines. Sono particolarmente utili se sono state riconosciute troppe baselines o se sono state unite o separate quando non dovrebbero. Per ogni parametro, è possibile scegliere uno dei tre valori suggeriti (Basso, Medio, Alto) o personalizzare il valore manualmente.
- Minimal baseline length:
indica la lunghezza minima delle linee in pixel. Le linee più corte di questa lunghezza non verranno rilevate. - Baseline accuracy threshold:
nella prima fase del riconoscimento del layout, ogni pixel viene etichettato come baseline, separatore o altro. La soglia di precisione della linea di base si applica all'etichettatura delle baselines in questa fase.
È compresa tra 0 e 255 e i valori più alti comportano una maggiore accuratezza delle baselines rilevate. - Use trained separators:
I separatori sono piccole linee verticali tracciate accanto a ogni baseline; segnano l'inizio e la fine di ogni baseline (non vanno confusi con i separatori reali nelle immagini dei documenti stampati). Come per la soglia di accuratezza delle baselines, la soglia dei separatori si riferisce alla prima fase, quando i pixel vengono etichettati.
La soglia dei separatori è compresa tra 0 e 255: 0 significa che i separatori non vengono utilizzati affatto; con un valore più alto, i separatori vengono utilizzati e quindi le baselines vicine tendono a non essere unite.
Di solito, valori bassi sono sufficienti per evitare una connessione tra baselines vicine. - Max-dist for merging:
Nella seconda fase, l'algoritmo cerca di unire le baselines vicine, ma solo quando la loro distanza è inferiore a un valore stabilito.
Impostalo su: "Basso" per unire solo le linee più vicine (più vicine dello 0,5% della larghezza dell'immagine); "Medio" per unire linee più vicine dell'1% della larghezza dell'immagine; "Alto" per unire linee abbastanza distanti, ma più vicine del 5% della larghezza dell'immagine.
"Medio" dovrebbe funzionare bene nella maggior parte dei casi. - Image scaling:
È possibile eseguire l'upscaling delle immagini a bassa risoluzione o il downscaling delle immagini ad alta risoluzione.
Si consiglia di provare questa funzione solo quando il riconoscimento del layout non funziona con l'impostazione predefinita (ad esempio, non rileva nessuna o poche linee).
3) Impostazioni per il rilevamento delle regioni
Dopo aver rilevato le baselines, queste vengono raggruppate in regioni di testo. Sono disponibili due metodi di raggruppamento:
- General (predefinito): raggruppa le linee da sinistra a destra.
Per migliorare il raggruppamento, impostare l'orientamento delle linee di testo su "Orizzontale" se i documenti hanno solo linee orizzontali o su "Misto" per far sì che l'algoritmo assuma che le linee siano ruotate di 0, 90, 180 e 270 gradi. - Custom: è un semplice raggruppamento agglomerativo basato sul punto più a sinistra di ogni riga. Raggruppa le linee in base alla loro distanza.
È possibile scegliere di avere una regione di testo, poche, medie o molte regioni di testo per immagine.
Può accadere che le regioni di testo di interesse siano state disegnate a mano (ad esempio per le tabelle), come spiegato nella pagina Riconoscimento manuale del layout, e che si voglia semplicemente rilevare le linee di base mantenendo le regioni di testo esistenti. Nella sezione "Layout Analysis" della scheda "Tools", deselezionare l'opzione "Find Text Regions" prima di avviare l'analisi del layout.
Quando si mantengono le regioni di testo esistenti, è anche possibile:
- limitare ai tag strutturali: limitare il rilevamento delle baselines alle regioni di testo taggate con determinati tag strutturali.
- terminare le linee sul bordo della regione: fa in modo che le linee rispettino rigorosamente il bordo della regione, evitando che linee vicine tra loro ma appartenenti a regioni diverse vengano unite come un'unica lunga linea.
È possibile aumentare la frazione di sovrapposizione minima tra una linea rilevata e una regione di testo esistente, nel caso in cui si desideri che la linea si estenda leggermente oltre il bordo della regione. Tuttavia, se una linea si sovrappone a più regioni, viene scelta la regione con la maggiore sovrapposizione.
Per ulteriori informazioni sull'algoritmo e sulle impostazioni di Transkribus LA, consultare questa pagina.