|
|
Da in Transkribus Bild und transkribierter Text visuell miteinander verknüpft sind, verwenden wir dieses Tool, um bestimmte Tags zu vergeben. Diese Seite bildet den Prozess der Evaluierung einzelner Tags ab und erklärt die im Endeffekt verwendeten Tags.
|
|
|
|
|
|
[[_TOC_]]
|
|
|
|
|
|
# Umfang der für Transkribus geplanten Vorarbeiten für die digitale Edition #
|
|
|
|
|
|
Zu diesem Zeitpunkt (Februar 2023) ist der folgende Umfang der digitalen Edition zum handschriftlichen Katalog geplant: Vollständige Transkription (zuerst automatisiert erstellt mittels Transkribus und danach manuell überprüft) der Bände 1 bis 3 und Markierung der folgenden Strukturmerkmale auf jeder regulären Katalogsseite:
|
|
|
- Seitenzahl
|
|
|
- Formatsangabe
|
|
|
- Wissensklasse
|
|
|
- Unterkategorie der Wissensklasse
|
|
|
- Katalogeinträge
|
|
|
|
|
|
Die Katalogeinträge sollten, falls möglich, einen Verweis auf den passenden Eintrag im modernen Bibliothekskatalog beinhalten. Für die Bände 4 und 5 ist eine reduzierte digitale Edition mit lediglich automatisch erstellter Transkription geplant, ohne Verknüpfung mit dem Katalog oder zusätzliche Strukturmerkmale. Falls es der Zeitplan erlaubt soll versucht werden, die Bände 4 und 5 ebenso zu erschließen wie Bände 1-3.
|
|
|
|
|
|
Eine Kurzfassung der Entscheidungen befindet sich [hier](../uploads/Richtlinien_Transkribus_06.2023.pdf) zu finden.
|
|
|
|
|
|
# Textuelle Tags #
|
|
|
|
|
|
## Einschätzung Vorkommen und Aufwand ##
|
|
|
|
|
|
Für eine Einschätzung, welche Tags vergeben werden sollten, wurden 27 Seiten der Kataloge mit Tags versehen und evaluiert. Bei den Seiten handelte es sich um folgende:
|
|
|
- Cod. 14.376 S. 30-35, 37-39, 41, 43-47
|
|
|
- Cod. 14.378 S. 5, 7-9, 11-13, 15-19
|
|
|
|
|
|
Die vergebenen Tags hierbei waren die folgenden:
|
|
|
- Unleserlich (unclear)
|
|
|
- Abkürzung (abbrev)
|
|
|
- Hinzufügung (add)
|
|
|
- Korrektur (corr)
|
|
|
- TextStyle 'strikethrough'
|
|
|
- Rötelstift (roetel)
|
|
|
- Bleistift (bleistift)
|
|
|
|
|
|
Kriterien für die Tagvergabe wären hier insbesondere die Wichtigkeit in der Edition, sowie für die Forschung. Es ist möglich, Tags innerhalb oder außerhalb von Transkribus zu vergeben, wobei hier beachtet werden muss, dass in Transkribus Tags maximal auf Zeilenebene vergeben werden können. Es ist möglich, sich durch "continued"-Tags zu behelfen (siehe den Eintrag Hinzufügung (add)).
|
|
|
Eine Vergabe mehrerer Tags (zb. unclear, corr) ist möglich.
|
|
|
|
|
|
*Wichtig*: In Transkribus vergebene Tags entsprechen selbst bei gleichem Namen nicht automatisch ihren TEI-Namensäquivalenten und müssen nach dem Export angepasst werden!
|
|
|
|
|
|
### Tag "Unleserlich (unclear)" ###
|
|
|
Tag kommt über den untersuchten Bereich seltener als einmal pro Seite vor, und wird eingesetzt, wenn ein Begriff oder Satzteil nicht leserlich ist. Der Tag wird in Transkribus vergeben, da für die Vergabe das visuelle Mapping notwendig ist, und die limitierung auf Zeilenebenen in Kauf genommen werden kann.
|
|
|
|
|
|
### Tag "Abkürzung (abbrev)" ###
|
|
|
Im Schnitt ist etwa jedes 13. Wort auf den Testseiten (350 von 4516 Wörtern) abgekürzt. Da es sich hierbei um eine sehr große Menge an zu erfassenden Worten handelt, und diese zudem hauptsächlich aus begrenzten Wortbereichen stammen, werden Abkürzungen in Transkribus nicht erfasst. Die Auffindung bestimmter Abkürzungen wie insbesondere Ortsnamen können *nach dem Export* mit weniger Aufwand geleistet werden.
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/Tag_Abbrev._PieChart.png" width="450">
|
|
|
<figcaption>Abbildung 1: Wortbereiche der gefundenen Abkürzungen</figcaption>
|
|
|
</figure>
|
|
|
</div>
|
|
|
|
|
|
### Tag "Hinzufügung (add)" ###
|
|
|
Es gibt drei verschiedene Arten von Hinzufügungen: 1. Hinzufügung ganzer Einträge durch eine weitere Hand, 2. Hinzufügung einzelner Worte, 3. Hinzufügung von Nummern/Signaturen, deren Bezug uns derzeit zum Teil noch nicht klar ist. Diese Hinzufügungsarten werden jeweils unterschiedlich behandelt:
|
|
|
1. Hinzufügungen durch andere Hand sollen markiert werden, jedoch gehen sie zT. über Zeilengrenzen hinaus. Hier soll sich mit einem "continued"-Tag geholfen werden.
|
|
|
2. Eindeutige Hinzufügungen einzelner Worte kommen nur sehr selten vor und werden mit aufgenommen. Hierzu gehören nicht Worte, die derselbe Schreiber vermutlich direkt im Schreibprozess vergessen und gleich eingefügt hat (mit # über/neben dem Text vermerkt).
|
|
|
3. Am Ende vieler Eintragungen befinden sich am Ende systematische Hinzufügungen im Stile „p./n.xxxx“ und/oder „Röm. Zahl, Bst., xx..“. Diese sind zT. klar als Hinzufügungen erkennbar, teils ist dies nicht genau ersichtlich. Aufgrund von Art, Häufigkeit und systematischem Aufbau und Positionierung können diese Hinzufügungen ausgeschlossen, bzw. nach dem Export mithilfe von Regular Expressions getaggt werden.
|
|
|
|
|
|
### Tag "Korrektur (corr)" ###
|
|
|
Der Tag nur etwa einmal pro Seite vor und gehen in der Regel nicht über die Zeilengrenze hinaus. Es tritt (1) teilweise gemeinsam mit dem TextStyle-Element 'strikethrough' gemeinsam auf, indem erst etwas durchgestrichen und dahinter oder darüber eine andere Information angegeben ist. In diesem Fall wird die neue (verbesserte) Information mit "corr" markiert. Andernfalls (2) kann auch eine Information direkt durch überschreiben ausgebessert worden sein. In diesem Fall geben wir lediglich die (nach bestem Wissen als solche ermittelte) verbesserte Variante an, und markieren diese mit "corr". Die vorher notierte Information fällt in diesem Fall weg.
|
|
|
Da es sich hierbei um relativ wenige und direkt mit dem visuellen Eindruck verbundene Eintragungen handelt, müssen diese noch *in Transkribus* eingetragen werden, um eine spätere Weiterverarbeitung außerhalb so leicht wie möglich zu gestalten.
|
|
|
|
|
|
### TextStyle 'strikethrough' ###
|
|
|
Das Element tritt nur etwa einmal pro Seite vor. Es tritt teilweise gemeinsam mit dem Tag "Korrektur (corr)" auf. Als Durchstreichung wird jeder Text markiert, der durchgestrichen wird, unabhängig davon, ob es sich um eine Streichung der ganzen Seite oder nur eines Eintrags oder Wortes handelt. Zudem kann vorkommen, dass durch die Durchstreichung der Text nicht mehr lesbar ist. In diesem Fall wird eine möglichst genaue Approximation des Textes darunter angegeben, dieser jedoch als "unclear" markiert.
|
|
|
Da es sich hierbei um relativ wenige und direkt mit dem visuellen Eindruck verbundene Eintragungen handelt, müssen diese noch *in Transkribus* eingetragen werden, um eine spätere Weiterverarbeitung außerhalb so leicht wie möglich zu gestalten.
|
|
|
|
|
|
### Tag "Rötelstift (roetel)" ###
|
|
|
Auch dieser Tag kommt weniger als einmal pro Seite vor und wird direkt *in Transkribus* vergeben, weil es ums Erfassen eines visuellen Kriteriums geht, das ohne zusätzliches Bild nur durch viel Aufwand nachvollzogen werden könnte. Rötelstift ist automatisch auch als Hinzufügung erkennbar und wird deshalb nicht doppelt getaggt.
|
|
|
|
|
|
### Zusätzlich: Tag "Bleistift (bleistift)" ###
|
|
|
Dieser Tag wurde nicht mit untersucht, kommt allerdings nur sehr selten vor und wird deshalb ebenfalls als solcher markiert. Bleistift ist automatisch auch als Hinzufügung erkennbar und wird deshalb nicht doppelt getaggt.
|
|
|
|
|
|
### Text Stil "hochgestelltes Element" ###
|
|
|
Hierbei handelt es sich einfach um eine Eigenschaft des Textes, der wie geschrieben mit erfasst werden muss. *In Transkribus* wird ein solches Vorkommen durch den Button "Tag as superscript" (in den Metainformationen als "text style" und nicht als Tag) notiert.
|
|
|
|
|
|
|
|
|
# Zusammenfassend: Tagvergabe #
|
|
|
|
|
|
## Tagvergabe in Transkribus ##
|
|
|
|
|
|
In Transkribus werden die Textuellen Tags 'unclear', 'abbrev', 'add', 'continued', 'corr', 'strikethrough', 'roetel' und 'bleistift' wie oben genauer erörtert vergeben. Weitere Tags werden nicht vergeben.
|
|
|
|
|
|
## Tagvergabe außerhalb von Transkribus ##
|
|
|
|
|
|
Außerhalb von Transkribus (siehe [TEI-XML-Export](Digitale-Edition/Aufbereitung-des-TEI-XML-Exports.md)) werden zusätzliche strukturelle Einheiten definiert, die die Möglichkeiten von Transkribus überstiegen, bzw. den Aufwand unnötig erhöht hätten. Hierzu zählen insbesondere die Definition von struktuellen Merkmalen wie oben erwähnt (Seitenzahl, Formatsangabe, Wissensklasse, Unterkategorie der Wissensklasse und Katalogeinträge)
|
|
|
|
|
|
# Zusätzliche Textuelle Merkmale #
|
|
|
|
|
|
Zusätzlich zu Tags werden außerdem noch die Transkribus-Eigenen Funktionen des durchstreichen, unterstreichen und hochstellen verwendet.
|
|
|
|
|
|
# Tag-Mapping in den TEI-Namespace #
|
|
|
|
|
|
Die in Transkribus vergebenen, bzw. außerhalb zu vergebenen Tags sollen anschließend in den [TEI-Namespace](https://tei-c.org/guidelines/) gemappt werden. |
|
|
\ No newline at end of file |