|
|
Die aus Transkribus exportierten TEI-XML Dateien werden (teil-)automatisiert mit zusätzlichen Auszeichnungen versehen, um die Qualität der Digitalen Edition zu erhöhen.
|
|
|
|
|
|
[TOC]
|
|
|
|
|
|
# Seitenelemente identifizieren
|
|
|
|
|
|
Basierend auf ihrer Position möchten wir die folgenden Merkmale als Eigenschaften der gefundenen Textregionen von Transkribus auszeichnen:
|
|
|
|
|
|
- Seitenzahl
|
|
|
- Formatsangabe
|
|
|
- Wissensklasse
|
|
|
- Unterkategorie der Wissensklasse
|
|
|
- Katalogeinträge
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/digitale-edition/typical_page.jpg">
|
|
|
<figcaption>Abbildung 1: Eine typische (rechte) Katalogseite mit den relevanten Merkmalen in farbig markierten Rahmen.</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Im folgenden beschreiben wir die Eigenschaften der zu bestimmenden Merkmale im Detail.
|
|
|
|
|
|
## Seitenzahl
|
|
|
|
|
|
Die Seitenzahl steht rechts oder links oben (je nachdem ob es sich um eine rechte oder linke Seite handelt) und ist entweder eine römische (im Inhaltsverzeichnis) oder arabische (im restlichen Katalog) Ziffer. Für eine automatisierte Zuordnung verwenden wir daher die folgende Charakterisierung einer Textregion:
|
|
|
- Enthält eine einzelne Zeichenfolge ohne Leerzeichen aus arabischen oder römischen Ziffern (Ausnahmefall: kleingeschriebene lateinische Buchstaben als Zusatz im Inhaltsverzeichnis)
|
|
|
- $x$-Koordinate entweder niedriger als 20% oder höher als 80% der Bildbreite
|
|
|
- $y$-Koordinate niedriger als 10% der Bildhöhe
|
|
|
|
|
|
## Formatsangabe
|
|
|
|
|
|
Die Formatsangabe befindet sich unterhalb der Seitenzahl und unterscheidet folgende Formate
|
|
|
|
|
|
- Folio
|
|
|
- Quarto
|
|
|
- Octavo und alle kleineren Formate (bezeichnet als "min. forma")
|
|
|
|
|
|
Diese werden durch ein kontrolliertes Vokabular ausgedrückt. Dabei können bis zu zwei Formatsangaben am oberen Seitenrand stehen (kombiniert durch "&"). Für die automatisierte Zuordnung einer Textregion sind also folgende Merkmale relevant:
|
|
|
- Koordinaten ähnlich der Seitenzahl (etwas weiter innen bzw. außen und etwas weiter unten)
|
|
|
- Einstellige Zahl an Wörtern aus folgender Liste: <i>in, folio, quarto, octavo, Octavo, &, min., forma, formâ, </i>
|
|
|
|
|
|
Es ist jedoch zu beachten, dass in einem Eintrag zusätzlich eine Formatangabe stehen kann, welche Vorrang hat gegenüber der Angabe pro Seite.
|
|
|
|
|
|
## Wissensklasse
|
|
|
|
|
|
In der ersten Zeile auf jeder Seite (bis auf Inhaltsverzeichnis) wird zentriert die Wissensklasse ausgegeben. Da das Inhaltsverzeichnis manuell erfasst wurde, sind die Wissensklassen allesamt bekannt:
|
|
|
|
|
|
- Band 1: Theologia, Iurisprudentia, Philosophia, Historia Naturalis, Medicina, Mathematica, Artes, Grammatica, Rhetorica
|
|
|
|
|
|
- Band 2: Poëtica, Philologia, Geographia, Chronologia, Historia Ecclesiastica, Historia Antiqua
|
|
|
|
|
|
- Band 3: Historia Nova Europæ, Historia Nova extra Europam, Miscellanea Historica, Paralipomena historica, Codices Manuscripti, Imagines
|
|
|
|
|
|
Für die automatisierte Zuordnung der Textregionen ist folgendes relevant:
|
|
|
- $x$-Koordinate des Mittelpunkts der Region nahe der Seitenmitte
|
|
|
- $y$-Koordinate niedriger als 5% der Seitenhöhe
|
|
|
- Ein Begriff aus den oben genannten Klassen je Band
|
|
|
|
|
|
## Unterkategorie der Wissensklasse
|
|
|
|
|
|
Die zweite Zeile auf jeder Seite enthält je Wissensklasse eine Unterkategorie, welche ebenso manuell erfasst wurde. Wir verweisen auf die Unterseite [Inhaltsverzeichnis des hs. Katalogs](/Kataloginhalt/Inhaltsverzeichnis-des-hs.-Katalogs) für eine Auflistung, da diese sehr umfangreich ist. Ebenso wie für die Wissensklasse verwenden wir die ungefähre Position der Unterkategorie und das kontrollierte Vokabular für die automatisierte Zuordnung.
|
|
|
|
|
|
## Katalogeinträge
|
|
|
|
|
|
Nachdem die oben genannten Merkmale gefunden wurden sollen die übrigen (bisher ohne Merkmal ausgezeichneten) Zeilen/Textregionen zu Einheiten zusammengeschlossen werden, die den Buchbänden entsprechen. Dies soll ermöglicht werden durch zum einen den Einzug der jeweils zweiten Zeile pro Eintrag und zum anderen durch den größeren Zeilenabstand der ersten Zeile eines Eintrags zum darüberliegenden. Die relevanten Koordinaten hierfür entnehmen wir der "Baseline", da diese eine bessere Repräsentation einer Zeile liefern als die umhüllende "TextLine", siehe Abbildung 2.
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/digitale-edition/baseline_vs_textline.jpg">
|
|
|
<figcaption>Abbildung 2: Von Transkribus bestimmte Regionen für eine Textzeile. In hellblau: die komplett umhüllende "TextLine", in dunkelblau: die Grundlinie der Zeile (sog. "Baseline").</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Für die automatisierte Zuordnung von Zeilen zu einem Eintrag gehen wir daher wie folgt vor. Zunächst wird eine Zeile als neuer Eintrag identifiziert, wenn sie keine andere Auszeichnung aus den zuvor genannten Kategorien hat, ausreichend nah am linken Bildrand ist und ausreichend Abstand zur vorherigen Zeile hat. Die darauf folgenden Zeilen sind dann diesem Eintrag hinzuzufügen, wenn sie genug Einzug aufweisen und keinen zu großen Abstand zur vorherigen Zeile haben. Textzeilen, die aus diesem Schema fallen (wie etwa Randnotizen) sollen nicht extra ausgezeichnet werden. Für die korrekte Lesereihenfolge ist zunächst eine Sortierung der Textregionen zuerst nach $x$- und danach nach $y$-Koordinate nötig. Um Zeilen mit und ohne Einzug zu unterscheiden ist eventuell eine statistische Analyse je Seite nötig.
|
|
|
|
|
|
# Einträge erschließen
|
|
|
|
|
|
In einer weiteren Ausbaustufe sollen die Einträge inhaltlich erschlossen werden, sodass die Felder
|
|
|
|
|
|
- Titel
|
|
|
- Autor
|
|
|
- Veröffentlichungsjahr
|
|
|
- Ort
|
|
|
- Drucker
|
|
|
|
|
|
einzeln abrufbar/durchsuchbar werden. |