Entdecken Sie alle verfügbaren Formate, um Ihre Dokumente von Transkribus herunterzuladen und Ihre Transkriptionen zu speichern, zu veröffentlichen oder weiter zu analysieren
Wenn Sie mit Ihren Bildern und Transkriptionen außerhalb von Transkribus arbeiten möchten, können Sie Ihre Dokumente von der Plattform herunterladen. Es stehen verschiedene Formate zur Verfügung.
Um Ihre Bilder und Transkriptionen herunterzuladen, wählen Sie die Dokumente oder Seiten aus, die Sie exportieren möchten. Klicken Sie im linken Menü Extras auf „Herunterladen“ und wählen Sie eine der folgenden Optionen:
- Bilder: um die JPG-Datei jeder Seite des Dokuments/jeder ausgewählten Seite herunterzuladen.
- Dateien: um die Transkriptionen und Tags herunterzuladen:
- PAGE XML: ist ein XML-basiertes Framework zur Darstellung von Seitenbildern, das neben der Layoutstruktur und dem Seiteninhalt auch Informationen zu Bildeigenschaften aufzeichnet. Wenn Sie dieses Format wählen, laden Sie für jede Seite eine XML-Datei herunter, die die Layout-Informationen sowie den Inhalt der Seite enthält.
Die vollständige in Transkribus verwendete Formatdefinition finden Sie hier. - ALTO: ist ein spezielles Ausgabeformat, mit dem Sie das exportierte Dokument in andere Programme eingeben können, die mit diesem Format arbeiten. Wenn Sie dieses Format wählen, laden Sie für jede Seite eine XML-Datei herunter, die den Inhalt und die Layoutinformationen der Seite enthält.
Es wird oft in Kombination mit METS für die Beschreibung des gesamten digitalisierten Objekts und die Erstellung von Verweisen über die ALTO-Dateien verwendet, z. B. die Beschreibung der Lesesequenz.
Weitere Informationen zu ALTO finden Sie unter: http://www.loc.gov/standards/alto/
Durch Auswahl von Bildern, PAGE-XML und/oder Alto werden Sie auch eine Metadaten-XML-Datei und eine Mets-Datei (Metadata Encoding and Transmission Standard) erstellen, die die Links zu SEITEN-, XML-, Alto- und/oder Bilddateien enthalten, je nachdem, welche Optionen Sie wählen. Eine METS-DATEI ist wie ein Container, der alle Hintergrundinformationen über eine Datei enthält. Weitere Informationen zu METS finden Sie unter: http://www.loc.gov/standards/mets/
- PDF: um eine PDF-Datei des ausgewählten Dokuments/der ausgewählten Seiten herunterzuladen.
Die PDF-Datei besteht aus zwei Ebenen: dem transkribierten Text (OCR genannt) und dem Bild. Verwenden Sie das Bedienfeld „Ebenen“, um den den einzelnen Ebenen zugeordneten Inhalt ein- oder auszublenden.
Dadurch wird die PDF durchsuchbar und der gesuchte Begriff wird hervorgehoben (beachten Sie, dass der hervorgehobene Bereich möglicherweise nicht perfekt mit dem Wort im Bild übereinstimmt, da die Wortkoordinaten aus den Linien mit einem bestimmten Grad an Unschärfe bestimmt werden). - Tei : Diese Option gilt für Personen, die mit der Text Encoding Initiative (Tei) arbeiten. Die Text Encoding Initiative ist eine textzentrierte Praxisgemeinschaft im akademischen Bereich der digitalen Geisteswissenschaften, die seit den 1980er Jahren kontinuierlich tätig ist.
Mit dieser Option laden Sie eine Tei XML-Datei herunter, die mit dem XLS von Dario Kampaskar erstellt wurde und hier verfügbar ist: https://github.com/dariok/page2tei - Docx: Sie erhalten die Transkriptionen in Word-Dateien, eine Datei pro Dokument.
- Tag XLSX: i Wenn Sie die Ihrer Transkription zugewiesenen Text-Tags exportieren möchten, wählen Sie diese Option, um eine Excel-Datei mit einzelnen Registerkarten für jede Tag-Kategorie und einer Registerkarte mit einer Übersicht aller Tags zu erstellen.
- Tabelle XLSX: Wenn Ihr Dokument Tabellen enthält, verwenden Sie diese Option, um sie im Excel-Format zu exportieren. Jede Tabelle wird als separates Blatt der Excel-Datei exportiert.
- PAGE XML: ist ein XML-basiertes Framework zur Darstellung von Seitenbildern, das neben der Layoutstruktur und dem Seiteninhalt auch Informationen zu Bildeigenschaften aufzeichnet. Wenn Sie dieses Format wählen, laden Sie für jede Seite eine XML-Datei herunter, die die Layout-Informationen sowie den Inhalt der Seite enthält.
Wenn Sie den Job starten, wird der Download auf dem Transkribus-Server verarbeitet und Sie erhalten eine E-Mail mit dem Link zum Herunterladen Ihrer Dateien. Der Link läuft in zwei Wochen ab. Sie können den Status des Downloads jederzeit mit der Schaltfläche Jobs überprüfen.
Derzeit gibt es keine Option zum Exportieren und Anzeigen von Tags in PDF und Docx. Weitere Download-Optionen (Tags, Zeilen- und Seitenumbrüche, Tabellen...) werden in Kürze implementiert. In der Zwischenzeit können Sie die Exportfunktion in Transkribus eXpert verwenden, wie unten beschrieben.
Transkribus eXpert (veraltet)
Wenn Sie mit Ihren Bildern und Transkriptionen außerhalb von Transkribus arbeiten möchten, können Sie Ihre Dokumente von der Plattform exportieren. Je nach Bedarf stehen verschiedene Exportformate und -funktionen zur Verfügung.
Um das Exportfenster zu öffnen, klicken Sie auf das Ordnersymbol mit dem grünen Pfeil nach rechts in der Hauptleiste:
< em>
Das sich öffnende Exportdokument hat zwei Registerkarten/Optionen, zwischen denen Sie wählen müssen:
- Serverexport: Der Export wird auf dem Transkribus-Server verarbeitet und Sie erhalten einen Link zum Herunterladen Ihrer Dateien. Der Export verlangsamt Ihren Computer nicht und der Vorgang wird nicht unterbrochen, wenn Sie Ihren Computer ausschalten. Nach dem Start des Downloads können Sie den Fortschritt Ihres Exports überprüfen, indem Sie auf der Registerkarte „Server“ auf die Schaltfläche „Jobs“ klicken.
- Client-Export: Die Dateien werden direkt auf Ihrem Computer gespeichert. Bitte wählen Sie aus, wo Sie die exportierten Dateien speichern möchten: Geben Sie den Speicherort der Datei in das Feld "Basisordner" oben im Fenster ein.
Dies sind die verfügbaren Exportformate:
- Transkribus-Dokument : Wenn Sie Ihre Transkription als Transkribus-Dokument exportieren, erstellen Sie eine Mets-Datei (Metadata Encoding and Transmission Standard), die die Links zu SEITEN-, XML-, ALT- und/oder Bilddateien enthält, je nachdem, welche Optionen Sie wählen.
Eine Mets-Datei ist wie ein Container, der alle Hintergrundinformationen zu einer Datei enthält. Weitere Informationen zu METS finden Sie unter: http://www.loc.gov/standards/mets/
In Verbindung mit der Mets-Datei können Sie Ihr Dokument in folgenden Formaten exportieren:-
- PAGE: ist ein XML-basiertes Framework zur Darstellung von Seitenbildern, das neben Layoutstruktur und Seiteninhalt auch Informationen zu Bildeigenschaften aufzeichnet. Die vollständige Formatdefinition, die in Transkribus verwendet wird, kann hier abgerufen werden.
- ALTO: ist ein spezielles Ausgabeformat, mit dem Sie das exportierte Dokument in andere Programme eingeben können, die mit diesem Format arbeiten. Das Format ist ähnlich wie XML und funktioniert beispielsweise für OCR. Es wird oft in Kombination mit METS für die Beschreibung des gesamten digitalisierten Objekts und die Erstellung von Verweisen über die Altodateien verwendet, z. B. die Beschreibung der Lesesequenz. Weitere Informationen über ALT finden Sie unter: http://www.loc.gov/standards/alto/ Mit der Option "Zeilen in Wörter aufteilen" teilt Transkribus die Zeilen in Wörter. Dazu analysiert das Programm die Leerzeichen zwischen Wörtern, auch wenn zuvor noch keine Wortsegmentierung durchgeführt wurde.
- Bilder: Wählen Sie diese Option, um die Bilddatei jeder Seite des Dokuments/der ausgewählten Seiten herunterzuladen. < br > Im Bildtyp können Sie das Original (das von Ihnen hochgeladene Bild) oder die komprimierte JPEG-Version des Bildes (die im Transkribus-Bildfenster angezeigte) herunterladen.
Unter "Dateinamensmuster" können Sie auswählen, wie der Dateiname zusammengesetzt wird. Die zweite Option, „Dateiname“, ist die Standardoption. Mit dieser Option hat die exportierte Datei denselben Namen wie das Dokument, das Sie importiert haben. Dies ist wichtig, wenn Sie lokale Transkripte mit den Bildern in Transkribus abgleichen möchten. Wenn Sie also ein Dokument exportieren, dann extern anpassen und danach wieder nach Transkribus hochladen, muss das Programm zwei ähnliche Dateinamen haben, um die Datei richtig zu erkennen.
- PAGE: ist ein XML-basiertes Framework zur Darstellung von Seitenbildern, das neben Layoutstruktur und Seiteninhalt auch Informationen zu Bildeigenschaften aufzeichnet. Die vollständige Formatdefinition, die in Transkribus verwendet wird, kann hier abgerufen werden.
-
- PDF: Wenn Sie eine PDF-Datei exportieren, können Sie zwischen diesen Optionen wählen:
-
-
„Images plus text layer“ (Bilder plus Textebene): Im exportierten PDF-Dokument werden zwei Ebenen angezeigt: OCR (der transkribierte Text) und Bild (Bild des Dokuments). „Nur Bilder“: Sie erstellen eine PDF-Datei mit dem Dokument als Bild. Das bedeutet, dass Sie den transkribierten Text nicht sehen. „Zusätzliche Textseite“: Der transkribierte Text wird nach jedem Bild als zusätzliche Seite in die PDF-Datei eingefügt. „Tags hervorheben“: Wählen Sie diese Optionen aus, um die Tags in der exportierten PDF-Datei hervorzuheben. Die Tags werden in den gleichen Farben wie in Transkribus angezeigt. Am Ende des Dokuments wird es auch eine Symbollegende geben, um die Bedeutung der verschiedenen Farben zu erklären. „Artikel hervorheben“: Die Artikel werden in der exportierten PDF mit unterschiedlichen Farben hervorgehoben.
- „PDF/A“: zur Langzeiterhaltung. Sie können auch die Schriftart und den Bildtyp auswählen, die in der PDF verwendet werden sollen. < br>
- „PDF/A“: zur Langzeiterhaltung. Sie können auch die Schriftart und den Bildtyp auswählen, die in der PDF verwendet werden sollen. < br>
-
- Tei: Diese Option richtet sich an Personen, die mit der Text Encoding Initiative (Tei) arbeiten. Die Text Encoding Initiative ist eine textzentrierte Praxisgemeinschaft im akademischen Bereich der digitalen Geisteswissenschaften, die seit den 1980er Jahren kontinuierlich tätig ist. Weitere Informationen finden Sie unter: http://www.tei-c.org/index.xml < br > Sie können die Tei XML-Datei mit dem XLS von Dario Kampaskar (verfügbar unter: https://github.com/dariok/page2tei ) oder dem "Client Export" -Format erstellen. Sie können beides ausprobieren und entscheiden, welches am besten zu Ihren Bedürfnissen passt.
Mit dem Format „Client-Export“ können Sie die Option markieren, nur die vordefinierten Tags und Attribute zu exportieren: Es wird eine gültige Tei erstellt, aber beachten Sie, dass alle von Ihnen erstellten Tags und Attribute ignoriert werden.
Mit Transkribus können Sie die Zonen auswählen, die Sie benötigen (keine Zonen; Zone pro Region; Zone pro Zeile; Zone pro Wort). Darüber hinaus können Sie zwischen Zeilen-Tags und Zeilenumbrüchen für Tag-Zeilenwählen. - DOCX: Wenn Sie diese Option wählen, erhalten Sie Ihre Transkriptionen in Word-Dateien. Sie können Optionen für Zeilenumbrüche, Abkürzungen und mehr nach Ihren Bedürfnissen auswählen. < br >
Wählen Sie „Ausgewählte Tags exportieren“, um die Tags in der exportierten DOCX-Datei sichtbar zu machen. Öffnen Sie nach dem Export des Word-Dokuments dieses und gehen Sie wie folgt vor:- Klicken Sie im Startmenü von Word auf die Absatzschaltfläche
- Gehen Sie zu "Referenzen" und wählen Sie "Index einfügen"
- Das folgende Office-Fenster wird geöffnet
- Es öffnet sich ein Bestätigungsfenster: Klicken Sie auf "Ja"
< em>< br> > - Am Ende des Dokuments sollte nun eine Übersicht der Tags angezeigt werden. Wenn die Übersicht der Tags nicht angezeigt wird, klicken Sie auf „Index aktualisieren“. Dies sollte das Problem lösen.
Wählen Sie „Seitennummern rechtsbündig ausrichten“ und drücken Sie „OK“. - Klicken Sie im Startmenü von Word auf die Absatzschaltfläche
- TXT: Wenn Sie normalerweise nicht mit Microsoft Word arbeiten, ist es möglich, Ihre Transkription als einfache TXT-Datei zu exportieren. < br > Sie können den Text in Textdateien von einem Start-Tag zu einem End-Tag aufteilen und mehrere Textdateien erstellen; diese Dateien können nach einem oder mehreren Attributen des Tags benannt werden.
- Tag-Export (Excel): Wenn Sie die Tags exportieren möchten, die Sie Ihrer Transkription zugewiesen haben, wählen Sie diese Option, um eine Excel-Datei mit einzelnen Registerkarten für jede Tag-Kategorie und einer Registerkarte mit einer Übersicht aller Tags zu erstellen. Wie oben beschrieben, können Sie die Tags auch in PDF- und DOCX-Dateien exportieren.
- Tabellenexport in Excel: Wenn Ihr Dokument Tabellen enthält, verwenden Sie diese Option, um sie im Excel-Format zu exportieren. Jede Tabelle wird als separates Blatt der Excel-Datei exportiert. Sie können jedoch die Option "Eine große Tabelle erstellen" aktivieren, wenn Sie alle Tabellen der ausgewählten Seiten in einer Tabelle in einer Excel-Tabelle haben möchten. Sie können auch wählen, nur eine Spalte Ihrer Tabelle mit den Bildausschnitten der Zellen zu exportieren.
Seitenmetadaten in Excel: um die seitenbezogenen Metadaten auf der Registerkarte Metadaten-Seite im Excel-Format zu exportieren.
Zusätzlich zum Exportformat sind beim Export folgende Optionen auswählbar:
- Versionsstatus: zum Exportieren einer bestimmten Version des Dokuments. Wenn Sie beispielsweise „Ground Truth“ auswählen, exportiert Transkribus nur die Seiten des Dokuments, die Sie als „Ground Truth“ markiert haben. Für den Export werden frühere Versionen Ihres Dokuments abgefragt. Dies bedeutet, dass, wenn Sie alle "In Bearbeitung" -Seiten exportieren, das Programm alle Seiten exportiert, die als "In Bearbeitung" markiert wurden, auch wenn ihr Status jetzt aktualisiert ist. Das Programm exportiert die neueste „In Bearbeitung“ -Version Ihres Dokuments. Wenn Sie eine bestimmte frühere „In Bearbeitung“ -Version Ihrer Seite exportieren möchten, öffnen Sie diese Version der Seite in Transkribus. Öffnen Sie das Exportfenster und wählen Sie „Geladene Version für aktuelle Seite“ (nur für den Client-Export verfügbar). Wählen Sie in der Option „Seiten“ vor der Bestätigung „Aktuell“ aus.
- Wortebene : Wenn diese Option aktiviert ist, wird der Text aus der Wortebenen-Segmentierung exportiert (es funktioniert nur, wenn Sie zuvor während der Texterkennung die Option "Geschätzte Wortkoordinaten hinzufügen" ausgewählt haben).
- Schwärzung: Wenn Sie sensible Abschnitte Ihrer Transkription geschwärzt haben, können diese Wörter oder Ausdrücke auch in den exportierten Dateien ausgeblendet werden. Wählen Sie dazu in den Exportoptionen „Schwärzen“ aus. Hinweis: Diese Option funktioniert nur für Word-, PDF- und Mets-Dateien.
- Titelseite erstellen : Mit dieser Option wird eine Titelseite basierend auf den Informationen erstellt, die auf der Registerkarte "Dokument" in der Registerkarte "Metadaten" hinzugefügt wurden. Auf der Registerkarte „Dokument“ können Sie Informationen zu Titel, Autor, Sprache und Datum Ihres Dokuments hinzufügen. Sie können auch eine Redaktionserklärung erstellen, um zu erklären, wie Ihr Dokument genau transkribiert wurde (weitere Informationen zur Redaktionserklärung auf dieser Seite).
- Zu exportierende Seiten : Wählen Sie die Anzahl der Seiten aus, die Sie exportieren möchten. Sie können alle Seiten in Ihrem Dokument oder nur die aktuelle Seite exportieren.
Alle Tags/ausgewählten Tags : um auszuwählen, welche Tags exportiert werden sollen.