1. Help Center
  2. Riconoscimento del Layout

7. Giornali

Il riconoscimento del layout è la parte più impegnativa quando si lavora con i giornali. Utilizzate prima il rilevamento dei blocchi stampati e poi le impostazioni di configurazione avanzata per il rilevamento


L'elaborazione dei giornali può essere difficile se si esegue direttamente il Riconoscimento del testo. Il problema spesso non risiede nella capacità del modello di Intelligenza Artificiale di leggere il testo, ma nel riconoscimento del layout, che è integrato nel riconoscimento del testo come primo passo.

La soluzione risiede nell'eseguire il riconoscimento del layout e il riconoscimento del testo come due fasi separate.

Per ottenere risultati ottimali, si consiglia di utilizzare prima il metodo di rilevamento dei blocchi stampati per rilevare la struttura della pagina (gli articoli come blocchi di testo separati); in seguito eseguire il riconoscimento del layout mantenendo le regioni di testo esistenti.

Modificando le impostazioni avanzate di configurazione del layout, si riusciranno a riconoscere tutte le righe per la loro intera lunghezza.

Molto dipende dal tipo di giornale e dalla qualità dell'immagine con cui si sta lavorando, quindi potrebbe essere necessario procedere per tentativi. Si consiglia di testare le impostazioni su alcune pagine prima di eseguire il riconoscimento del layout sull'intero documento.

In generale, questi sono i passaggi da seguire per riconoscere il layout di un giornale:

1) Rilevamento dei blocchi stampati

Selezionare la pagina o le pagine e fare clic su "Riconoscimento del layout" nel menu a sinistra. Selezionare il metodo "Rilevamento blocco stampato" e avviare il riconoscimento.

Questa fase identificherà i blocchi di testo, non le righe: è tuttavia necessario che la pagina sia suddivisa in blocchi di testo (ad esempio, gli articoli nel caso dei giornali); in caso contrario, si otterrà una grande regione di testo che comprende l'intera pagina e le righe non saranno nel giusto ordine.

  

 

2) Riconoscimento del layout con impostazioni avanzate

Selezionate nuovamente la stessa pagina o le stesse pagine, fate clic su "Riconoscimento del testo" e utilizzate il menu a discesa per selezionare "Layout" anziché "Riconoscimento del testo".

Utilizzare le seguenti impostazioni:

Layout Model Mixed Text Line Orientation
(clicca su Configure)  
Generation of Text Regions (Layout Blocks) Keep existing
Image Scaling Upscale
(clicca su Baseline Options)  
Minimal Baseline Lengh Low
Baseline Accuracy Threshold High
Use Trained Separators No
Max distance for merging baselines Medium
Split Lines on Regions border Yes


In base alla nostra esperienza, queste impostazioni di configurazione funzionano per la maggior parte dei giornali, ma è difficile generalizzare perché molto dipende dalla qualità dell'immagine e dal tipo di giornale.

Suggeriamo di iniziare con le impostazioni consigliate e di modificarle se necessario, in base a quanto spiegato nella pagina Impostazioni avanzate di configurazione del layout.

 


In alcuni casi, può essere utile ridimensionare le immagini (raddoppiandole) prima di caricarle su Transkribus.


Dopo aver eseguito il Rilevamento dei blocchi stampati e il Riconoscimento del layout, è possibile trascrivere automaticamente i giornali utilizzando il modello di riconoscimento del testo più appropriato, come spiegato in questa pagina.