Scoprite tutti i formati disponibili per scaricare i vostri documenti da Transkribus e archiviare, pubblicare o analizzare ulteriormente le vostre trascrizioni
Se volete lavorare con le vostre immagini e trascrizioni al di fuori di Transkribus, potete scaricare i vostri documenti dalla piattaforma. Sono disponibili diversi formati.
Per scaricare le immagini e le trascrizioni, selezionare il documento o le pagine che si desidera esportare. Fare clic su "Download" nel menu Strumenti a sinistra e scegliere le opzioni seguenti:
- Images: per scaricare il file JPG di ogni pagina del documento/di ogni pagina selezionata.
- Files: per scaricare le trascrizioni e i tag:
- PAGE XML: è un framework di rappresentazione delle immagini di pagina basato su XML che registra informazioni sulle caratteristiche delle immagini oltre alla struttura del layout e al contenuto della pagina. Scegliendo questo formato, si scaricherà un file XML per ogni pagina, contenente le informazioni sul layout e il contenuto della pagina.
La definizione completa del formato utilizzato in Transkribus è accessibile qui. - ALTO: è un formato di output speciale che consente di inserire il documento esportato in altri programmi che lavorano con questo formato. Scegliendo questo formato, si scaricherà un file XML per ogni pagina, contenente le informazioni sul contenuto e sul layout della pagina stessa.
È spesso utilizzato in combinazione con METS per la descrizione dell'intero oggetto digitalizzato e la creazione di riferimenti tra i file ALTO, ad esempio la descrizione della sequenza di lettura.
Più informazioni su ALTO sono disponibili su: http://www.loc.gov/standards/alto/
Selezionando immagini, PAGE-XML e/o Alto, si produrrà anche un file XML di metadati e un file METS (Metadata Encoding and Transmission Standard) contenente i collegamenti a PAGE, XML, ALTO e/o file di immagini a seconda delle opzioni scelte. Un file METS è come un contenitore che include tutte le informazioni di base su un file. Informazioni più dettagliate sul METS sono disponibili su: http://www.loc.gov/standards/mets/
- PDF: per scaricare un file PDF del documento/pagine selezionate.
Il PDF avrà due livelli: il testo trascritto (chiamato OCR) e l'immagine. Utilizzare il pannello Livelli per mostrare o nascondere il contenuto associato a ciascun livello.
In questo modo, il PDF diventa ricercabile e il termine cercato viene evidenziato (si noti che l'area evidenziata potrebbe non corrispondere perfettamente alla parola nell'immagine perché le coordinate della parola sono determinate dalle linee con un certo grado di sfumatura). - TEI: questa opzione è per chi lavora con la Text Encoding Initiative (TEI). La Text Encoding Initiative è una comunità di pratica centrata sul testo nel campo accademico delle digital humanities, attiva ininterrottamente dagli anni '80.
Con questa opzione, scaricherete un file TEI XML creato utilizzando l'XLS di Dario Kampaskar disponibile qui: https://github.com/dariok/page2tei - Docx: riceverete le trascrizioni in file Word, un file per documento.
- Tag XLSX: se desiderate esportare i tag testuali assegnati alla vostra trascrizione, selezionate questa opzione per produrre un file Excel con schede individuali per ogni categoria di tag e una scheda con una panoramica di tutti i tag.
- PAGE XML: è un framework di rappresentazione delle immagini di pagina basato su XML che registra informazioni sulle caratteristiche delle immagini oltre alla struttura del layout e al contenuto della pagina. Scegliendo questo formato, si scaricherà un file XML per ogni pagina, contenente le informazioni sul layout e il contenuto della pagina.
- Tabelle XLSX: se il documento presenta delle tabelle, utilizzare questa opzione per esportarle in formato Excel. Ogni tabella verrà esportata come foglio separato del file Excel.
Quando si avvia il lavoro, il download verrà elaborato sul server di Transkribus e si riceverà un'e-mail con il link per scaricare i file. Il link scade tra due settimane. È sempre possibile controllare lo stato del download con il pulsante Jobs.
Per ora non esiste un'opzione per esportare e visualizzare i tag in PDF e Docx. Altre opzioni di download (tag, interruzioni di riga e di pagina, tabelle...) saranno presto implementate. Nel frattempo, è possibile utilizzare la funzione di esportazione in Transkribus eXpert, come descritto di seguito.
Transkribus eXpert (deprecato)
Se volete lavorare con le vostre immagini e trascrizioni al di fuori di Transkribus, potete esportare i vostri documenti dalla piattaforma. Sono disponibili diversi formati e funzioni di esportazione per soddisfare le vostre esigenze.
Per aprire la finestra di esportazione, fare clic sull'icona della cartella con la freccia verde rivolta verso destra nella barra principale:
Il documento di esportazione che si apre presenta due schede/opzioni tra cui scegliere:
- Esportazione dal server: l'esportazione verrà elaborata sul server di Transkribus e riceverete un link per scaricare i vostri file. L'esportazione non rallenta il computer e il processo non viene interrotto se si spegne il computer. Dopo l'avvio del download, è possibile controllare l'avanzamento dell'esportazione facendo clic sul pulsante "Lavori" nella scheda "Server".
- Esportazione del cliente: i file verranno salvati direttamente sul vostro computer. Scegliere dove salvare i file esportati: digitare il percorso del file nella casella "Cartella di base" nella parte superiore della finestra.
Questi sono i formati di esportazione disponibili:
- Documento Transkribus: se si esporta la trascrizione come documento Transkribus, si produrrà un file METS (Metadata Encoding and Transmission Standard) contenente i collegamenti ai file PAGE, XML, ALTO e/o immagine, a seconda delle opzioni scelte.
Un file METS è come un contenitore che include tutte le informazioni di base su un file. Informazioni più dettagliate su METS sono disponibili all'indirizzo: http://www.loc.gov/standards/mets/
Insieme al file METS, è possibile esportare il documento nei seguenti formati:-
- PAGE: è un framework di rappresentazione delle immagini di pagina basato su XML che registra informazioni sulle caratteristiche dell'immagine oltre alla struttura del layout e al contenuto della pagina.La definizione completa del formato utilizzato in Transkribus è accessibile qui.
- ALTO: è un formato di output speciale che consente di inserire il documento esportato in altri programmi che lavorano con questo formato. Il formato è simile a XML e funziona, ad esempio, per l'OCR. Viene spesso utilizzato in combinazione con METS per la descrizione dell'intero oggetto digitalizzato e per la creazione di riferimenti tra i file ALTO, ad esempio per la descrizione della sequenza di lettura.
Più informazioni su ALTO sono disponibili su: http://www.loc.gov/standards/alto/ Con l'opzione "Split Lines Into Words" (Dividi le linee in parole) Transkribus divide le linee in parole. Il programma analizza gli spazi tra le parole, anche se non è stata eseguita alcuna segmentazione delle parole in precedenza. - Immagini: scegliere questa opzione per scaricare il file immagine di ogni pagina del documento o delle pagine selezionate.
In Tipo di immagine, si può scegliere di scaricare l'originale (l'immagine caricata) o la versione compressa JPEG dell'immagine (quella che si vede nella Finestra immagine di Transkribus).
In "Modello di nome file", si può scegliere come sarà composto il nome del file. La seconda opzione, "filename", è quella standard. Con questa opzione, il file esportato avrà lo stesso nome del documento importato. Questo è importante se si vuole far coincidere le trascrizioni locali con le immagini di Transkribus. Quindi, se esportate un documento, poi lo modificate esternamente e successivamente lo caricate di nuovo in Transkribus, il programma dovrà avere due nomi di file simili per riconoscere correttamente il file.
- PAGE: è un framework di rappresentazione delle immagini di pagina basato su XML che registra informazioni sulle caratteristiche dell'immagine oltre alla struttura del layout e al contenuto della pagina.La definizione completa del formato utilizzato in Transkribus è accessibile qui.
-
- PDF: quando si esporta un file PDF, è possibile scegliere tra queste opzioni: .
-
- "Livello immagini più testo": nel documento PDF esportato verranno visualizzati due livelli: OCR (il testo trascritto) e immagine (immagine del documento).
- "Solo immagini": verrà prodotto un file PDF con il documento come immagine. Ciò significa che non si vedrà il testo trascritto.
- "Pagina di testo extra": il testo trascritto verrà aggiunto al PDF come pagina extra dopo ogni immagine.
- "Evidenzia i tag": selezionare queste opzioni per evidenziare i tag nel file PDF esportato. Le etichette saranno visualizzate con gli stessi colori utilizzati in Transkribus. Alla fine del documento, sarà presente anche una legenda dei simboli per spiegare il significato dei diversi colori.
- "Evidenzia articolo": gli articoli saranno evidenziati con colori diversi nel PDF esportato.
- "PDF/A": per la conservazione a lungo termine.
È inoltre possibile scegliere il tipo di carattere e di immagine da utilizzare nel PDF.
-
- TEI: questa opzione è per chi lavora con la Text Encoding Initiative (TEI). La Text Encoding Initiative è una comunità di pratica incentrata sul testo nel campo accademico delle digital humanities, attiva ininterrottamente dagli anni Ottanta. Maggiori informazioni su: http://www.tei-c.org/index.xml
Si può scegliere di creare il file TEI XML utilizzando l'XLS di Dario Kampaskar (disponibile qui: https://github.com/dariok/page2tei) o il formato "Client Export". È possibile provarli entrambi e decidere quale si adatta meglio alle proprie esigenze.
Con il formato "Client Export", è possibile contrassegnare l'opzione per esportare solo i tag e gli attributi predefiniti: si crea un TEI valido, ma si noti che tutti i tag e gli attributi creati dall'utente saranno ignorati.
Transkribus consente di scegliere le zone necessarie (nessuna zona; zona per regione; zona per riga; zona per parola). Inoltre, è possibile scegliere tra tag di linea e interruzioni di linea per contrassegnare le linee. - DOCX: scegliendo questa opzione, riceverete le trascrizioni in file Word. È possibile selezionare le opzioni relative a interruzioni di riga, abbreviazioni e altro in base alle proprie esigenze.
Selezionare "Esporta i tag selezionati" per rendere i tag visibili nel file DOCX esportato. Dopo aver esportato il documento Word, aprirlo ed eseguire le seguenti operazioni- Cliccare sul pulsante paragrafo nel menu Home di Word
- Andare in "Riferimenti" e scegliere "Inserisci indice"
- Si aprirà la seguente finestra di Office
- Selezionare "Allinea a destra i numeri di pagina" e premere "OK"
- Si aprirà una finestra di conferma: cliccare su "Sì"
- Una panoramica dei tag dovrebbe ora apparire alla fine del documento. Se la panoramica dei tag non appare, fare clic su "Aggiorna indice". Questo dovrebbe risolvere il problema.
- Cliccare sul pulsante paragrafo nel menu Home di Word
- TXT: se non si lavora abitualmente con Microsoft Word, è possibile esportare la trascrizione come semplice file TXT.
È possibile scegliere di dividere il testo in file di testo da un tag iniziale a un tag finale e creare diversi file di testo; questi file possono essere denominati in base a uno o più attributi del tag. - Esportazione tag (Excel): Se si desidera esportare i tag assegnati alla trascrizione, selezionare questa opzione per produrre un file Excel con schede individuali per ciascuna categoria di tag e una scheda con una panoramica di tutti i tag.
Come descritto in precedenza, è possibile esportare i tag anche in file PDF e DOCX. - Esportazione tabelle in Excel: se il documento presenta tabelle, utilizzare questa opzione per esportarle in formato Excel. Ogni tabella verrà esportata come foglio separato del file Excel. Tuttavia, è possibile selezionare l'opzione "Crea una tabella grande" se si preferisce avere tutte le tabelle delle pagine selezionate in una tabella in un unico foglio Excel. È inoltre possibile scegliere di esportare solo una colonna della tabella con i frammenti di immagine delle celle.
- Metadati pagina in Excel: per esportare i metadati relativi alla pagina nella scheda Metadati-pagina in formato Excel.
Oltre al formato di esportazione, queste opzioni sono selezionabili durante l'esportazione:
- Stato della versione: per esportare una particolare versione del documento. Se si seleziona "Verità del suolo", ad esempio, Transkribus esporterà solo le pagine del documento contrassegnate come "Verità del suolo".
Per l'esportazione, il programma consulta le versioni precedenti del documento. Ciò significa che se si sceglie di esportare tutte le pagine "In corso", il programma esporterà tutte le pagine che sono state contrassegnate come "In corso", anche se il loro stato è ora aggiornato. Il programma esporrà l'ultima versione "in corso" del documento. Se si desidera esportare una specifica versione "in corso" della pagina, aprire questa versione della pagina in Transkribus. Aprire la finestra Esportazione e selezionare "Versione caricata per la pagina corrente" (disponibile solo per l'Esportazione client). Nell'opzione "Pagine", selezionare "Corrente" prima di confermare. - Word Layer: se spuntato, il testo della segmentazione del livello di parola verrà esportato (funziona solo se è stata precedentemente selezionata l'opzione "Aggiungi coordinate stimate della parola" durante il Riconoscimento del testo).
- Annerimento: Se avete oscurato sezioni sensibili della vostra trascrizione, queste parole o frasi possono essere nascoste nei file esportati. A tal fine, selezionare "Annerisci" nelle opzioni di esportazione. Nota: questa opzione funziona solo per i file Word, PDF e METS.
- Crea pagina del titolo: con questa opzione, viene creata una pagina del titolo basata sulle informazioni aggiunte nella scheda "Documento" all'interno della scheda "Metadati". Nella scheda "Documento" è possibile aggiungere informazioni su titolo, autore, lingua e data del documento. È inoltre possibile creare una Dichiarazione Editoriale per spiegare come è stato trascritto esattamente il documento (maggiori informazioni sulla Dichiarazione Editoriale su questa pagina).
- Pagine da esportare: selezionare il numero di pagine che si desidera esportare. È possibile esportare tutte le pagine del documento o solo la pagina corrente.
- Tutti i tag/tag scelti: per scegliere quali tag si vogliono esportare.