Contrassegna parole, come nomi, date, luoghi ed eventi, con tag testuali per aggiungere informazioni alle trascrizioni
Fase precedente: Trascrizione automatica dei documenti
I tag testuali consentono di arricchire le trascrizioni etichettando alcune parole (ad esempio abbreviazioni, luoghi, persone...) e aggiungendo attributi. È quindi possibile cercare tag specifici ed esportarli.
Per aggiungere tag testuali dopo aver automaticamente o manualmente trascritto un documento, aprire la pagina ed evidenziare la parola o le parole da etichettare. Si apre la finestra di tagging: qui è possibile selezionare il tag appropriato e aggiungere i suoi attributi.
Cliccare su "Configura" per scegliere i tag che si desidera siano visibili nella finestra dei tag.
Per ogni tag, è possibile aggiungere facilmente l'ID di Wikidata come attributo. Cliccare sul pulsante Wikidata ID: viene suggerita l'entità più probabile in base alla parola selezionata: selezionarla se corretta o utilizzare la barra di ricerca per trovare il termine Wikidata corretto.
Per aggiungere nuove categorie di tag o modificare gli attributi, fare clic sul pulsante "Configurazione" nell'angolo in basso a destra. Nella scheda Tag è possibile gestire i tag, ovvero rimuovere i tag dall'elenco, creare nuovi tag, modificare gli attributi e cambiare i colori. Ricordarsi di salvare le impostazioni prima di tornare all'editor.
Gli attributi descrivono il contenuto del tag e possono aiutare a mostrare ed elaborare i dati estratti dalla trascrizione. Ad esempio, il tag data consente di etichettare una data scritta nel documento e di aggiungere le proprietà giorno, mese e anno in una forma standardizzata. Tuttavia, non è necessario che tutti i tag abbiano degli attributi; dipende dalle vostre esigenze.
Utilizzate la finestra dei tag anche per modificare gli stili del testo, in particolare per aggiungere grassetto, barrato, sottolineato, pedice e apice al vostro testo. Quando si seleziona uno di questi stili di testo, si vede solo la parola selezionata che cambia stile ma, nel backend, Transkribus aggiunge un'etichetta testuale alla parola.
I tag testuali devono essere adattati ai vostri scopi specifici, ma in generale possiamo dire che i seguenti sono particolarmente utili quando si lavora con i documenti storici:
- Abbreviazione:
È possibile etichettare la parola abbreviata e digitare l'espansione come attributo.
Non esiste un modo corretto di trattare le abbreviazioni. A seconda della trascrizione che si vuole ottenere alla fine, è possibile adottare uno di questi approcci: - trascrivere la versione espansa dell'abbreviazione direttamente nell'editor di testo (le reti neurali sono spesso in grado di imparare a riconoscere e utilizzare le espansioni, soprattutto se appaiono frequentemente);
- Trascrivere l'abbreviazione utilizzando i caratteri di base più simili a quelli scritti dallo scrittore; è quindi possibile etichettarla e scrivere l'espansione come proprietà;
- trascrivere l'abbreviazione usando i caratteri Unicode che sono vicini ai grafemi speciali del documento originale. Ricordate che la Tastiera virtuale consente di aggiungere caratteri speciali. Poiché spesso è difficile decidere quale sia il carattere Unicode giusto, è possibile consultare il sito web MUFI per ottenere maggiori informazioni su questo argomento. Come sopra, se si è interessati, si può etichettare l'abbreviazione e scrivere l'espansione come proprietà.
- Unclear:
Usare questo tag quando il testo non può essere trascritto perché illeggibile. Evidenziate il testo non chiaro nell'editor di testo e contrassegnatelo come "non chiaro"; potete anche aggiungere alternative o suggerimenti per la parola illeggibile come attributo del tag. - Gap:
Se il testo è impossibile da leggere, aggiungere il tag "gap" nel punto in cui il testo illeggibile dovrebbe apparire nell'editor di testo. - Annerimento:
Utilizzare questo tag per eliminare le informazioni sensibili nei formati di esportazione. In genere viene utilizzato per nascondere dati personali in un documento reso pubblico. Il tag oscuramento viene utilizzato insieme alla regione "oscuramento" per nascondere la parola o la sezione nell'immagine. Per ora, la regione di "oscuramento" e la funzione di esportazione avanzata per il rendering dell'oscuramento sono disponibili solo in Transkribus eXpert.
Dopo aver etichettato le trascrizioni, è possibile cercare i tag come spiegato nella pagina Ricerca dei tag testuali o scaricarli in un file Excel, come descritto nella pagina Pagina di download.
Leggete la pagina Gestione dei tag testuali se lavorate in modo collaborativo su una raccolta con altri utenti di Transkribus e avete bisogno di gestire i tag a livello di raccolta.
Passo successivo: Downloading
Transkribus eXpert (deprecato)
I tag testuali consentono di arricchire le trascrizioni etichettando alcune parole (ad esempio abbreviazioni, luoghi, persone...) e aggiungendo attributi. È quindi possibile cercare tag specifici ed esportarli in diversi formati di file, in modo da poter continuare a lavorare con essi al di fuori di Transkribus.
L'interfaccia dei tag si trova cliccando sulla scheda "Metadati" e poi sulla scheda "Testuale".
Per aggiungere un tag testuale, selezionare il testo nell'Editor di testo e successivamente fare clic sul pulsante verde + vicino al tag che si desidera applicare. In alternativa, dopo aver evidenziato il testo, fare clic con il tasto destro del mouse e scegliere il tag adatto tra "Tutti i tag".
Nella sezione superiore della scheda Textual, vengono visualizzati i tag presenti nella trascrizione della pagina corrente. Facendo clic su uno di essi, l'immagine e l'editor di testo salteranno automaticamente alla riga che lo contiene.
Per eliminare i tag, utilizzare il pulsante rosso: selezionare il tag dall'elenco (premere CTRL per selezionare più tag alla volta) e fare clic sul pulsante rosso. In alternativa, è possibile eliminare un tag evidenziando la parola o la frase taggata, facendo clic con il tasto destro del mouse e premendo il pulsante "Elimina". Il programma offre due opzioni: "Elimina solo il tag evidenziato" o "Elimina tutti i tag per la selezione corrente".
Sotto, c'è la sezione "Tag": qui sono elencati tutti i tag testuali che si possono utilizzare. Si può decidere se mostrare tutti i tag dell'utente o solo quelli collegati alla collezione. Vicino a ciascun tag, sono presenti un pulsante verde + e un pulsante a stella: il primo, come spiegato in precedenza, aggiunge un tag al testo evidenziato; il pulsante a stella dà accesso alle opzioni avanzate per il tagging. In particolare, le opzioni avanzate consentono di eliminare o rinominare tutti i tag di un certo tipo.
Facendo clic sul "pulsante Personalizza", si apre la finestra di configurazione dei tag. Qui è possibile personalizzare i tag testuali sia a livello di utente che di raccolta. In dettaglio, è possibile:
- Creare nuovi tag;
- Eliminare i tag;
- Cambia il colore con cui il tag viene visualizzato;
- Aggiungi/modifica le proprietà dei tag nuovi ed esistenti;
- Aggiungi un tag all'elenco di "Tag Specification" e assegnagli un collegamento. Le scorciatoie consentono di velocizzare l'inserimento dei tag usati di frequente: selezionate il testo e premete i tasti di scelta rapida per aggiungere il tag.
- Aggiungi una scorciatoia relativa alle proprietà dei tuoi tag, ad esempio per espandere le abbreviazioni o aggiungere un nome di paese standardizzato a un tag di luogo. Selezionare il tag e digitare il contenuto della proprietà che si desidera. Quindi fate clic su "Aggiungi specifica tag": ora il vostro tag e la sua proprietà appariranno nella sezione "Specifica tag" della finestra e potrete aggiungere la scorciatoia che desiderate utilizzare. Ora è possibile aggiungere il tag e la sua proprietà semplicemente evidenziando la parola o la frase nel campo dell'Editor di testo e premendo la scorciatoia.
Nella finestra "Configurazione dei tag", i tag predefiniti sono mostrati in corsivo; quelli personalizzati sono mostrati senza corsivo.
Infine, in fondo alla scheda Testo, c'è la sezione Proprietà, dove è possibile modificare le proprietà di un tag, se ne ha.
I tag testuali devono essere adattati ai vostri scopi specifici, ma in generale possiamo dire che i seguenti sono particolarmente utili quando si lavora con documenti storici:
- Abbreviazione:
Si può etichettare la parola abbreviata e digitare l'espansione come proprietà.
Non esiste un modo corretto di trattare le abbreviazioni. A seconda della trascrizione che si vuole ottenere alla fine, si può adottare uno di questi approcci: - trascrivere la versione espansa dell'abbreviazione direttamente nell'editor di testo (le reti neurali sono spesso in grado di imparare a riconoscere e utilizzare le espansioni, soprattutto se compaiono frequentemente);
- Trascrivere l'abbreviazione usando i caratteri di base più simili a quelli scritti dallo scrittore; si può quindi etichettare e scrivere l'espansione come una proprietà;
- trascrivere l'abbreviazione usando i caratteri Unicode, che sono vicini ai grafemi speciali del documento originale. Ricordate che la Tastiera virtuale consente di aggiungere caratteri speciali. Poiché spesso è difficile decidere quale sia il carattere Unicode giusto, è possibile consultare il sito web MUFI per ottenere maggiori informazioni su questo argomento. Come sopra, se interessati, si può etichettare l'abbreviazione e scrivere l'espansione come proprietà.
- Unclear:
Usare questo tag quando il testo non può essere trascritto perché illeggibile. Evidenziate il testo non chiaro nell'editor di testo ed etichettatelo come "non chiaro"; potete anche aggiungere alternative o suggerimenti per la parola illeggibile come attributo dell'etichetta. - Gap:
Se il testo è impossibile da leggere, aggiungete il tag "gap" nel punto in cui il testo illeggibile dovrebbe apparire nell'editor di testo.
- Annerimento:
Utilizzare questo tag per eliminare le informazioni sensibili nei formati di esportazione. In genere viene utilizzato per nascondere dati personali in un documento reso pubblico. Il tag oscuramento viene utilizzato insieme alla regione "oscuramento", che deve essere aggiunta con gli strumenti di segmentazione.
Per oscurare parte del testo nella finestra dell'immagine, accedere al menu Tela, utilizzare il menu a discesa sul pulsante dell'elemento di segmentazione "+..." e selezionare "Oscuramento". Utilizzare l'area "Annerimento" per contrassegnare la parola o la sezione che si desidera nascondere (ricordarsi di fare clic sul pulsante "Visibilità voce" nel menu principale e selezionare "Renderizza annerimenti" per visualizzare le sezioni annerite su una pagina). Quindi, evidenziare la parola corrispondente nell'Editor di testo e selezionare il tag "Oscuramento".
Nell'esportazione del documento, il testo sarà sostituito da asterischi. Quando si esporta il documento, assicurarsi che sia selezionato "Annerisci". Si noti che nei file METS e TEI la parola o la frase viene oscurata, ma le informazioni dietro la sezione oscurata vengono mantenute. In altri formati di file, il testo dietro la sezione oscurata è completamente oscurato.
Gli stili di testo (grassetto, corsivo, pedice, apice, barrato, sottolineato...) vengono aggiunti come tag testuali. Per modificare lo stile del testo, utilizzare la barra di formattazione sotto l'editor di testo.
È possibile addestrare tag e proprietà durante l'addestramento di un modello HTR. Il modello risultante trascriverà il documento e aggiungerà automaticamente i tag testuali alla trascrizione. Leggete la pagina Allenamento del modello per sapere come funziona la funzione dei tag di allenamento.