|
|
In diesem Bereich finden sich alle Informationen aus Arbeitspaket 03 "Handschriftlicher Katalog der Bibliotheca Eugeniana".
|
|
|
In diesem Bereich findet sich der Prozess um die Erstellung einer Digitalen Edition des [Handschriftlichen Kataloges](Quellen-und-Inhalt).
|
|
|
|
|
|
[[_TOC_]]
|
|
|
# Planung und Designentscheidungen
|
|
|
|
|
|
# Textzeugen / Quelldokument #
|
|
|
## Meeting mit Christoph Steindl (12.12.2023)
|
|
|
|
|
|
Signatur: Cod. 14.376-14.378
|
|
|
- Auf hinreichenden Kontrast bei Farbwahl achten
|
|
|
- Auswahl der Komponenten
|
|
|
- Register: Ort und Wissensklassen, Werkregister schwierig
|
|
|
- Wissensklassen-Register
|
|
|
- Startseite: Zitiervorschlag und Kurzbeschreibung, Bildergalerie, ...
|
|
|
- Editionsseite: Quellen-/Objektbeschreibung
|
|
|
- URL: eugeniana/bed
|
|
|
- Synoptische Ansicht: Faksimile, (Transkription), Lesefassung, TEI XML, darunter Navigation mit Thumbnails und Hinweise (wie bei Handke)
|
|
|
- Verbindung von Edition und Visualisierungen noch zu planen
|
|
|
|
|
|
**Übersicht**:
|
|
|
| Band | Signatur | Blätter | Beschriebene Blätter | Inhalt | Katalog | Digitalisat | Kommentar |
|
|
|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|
|
|
| 1 | Cod. 14.376 | 218 Bl. | xxx | xxx | [Link zum Datensatz](http://data.onb.ac.at/rec/AC13948858) | [Digitalisat](https://digital.onb.ac.at/RepViewer/viewer.faces?doc=DOD_51202&order=1&view=SINGLE) | Einteilung nach Sachgebieten \(Fächern\) |
|
|
|
| 2 | Cod. 14.377 | 217 Bl. | xxx | xxx | [Link zum Datensatz](http://data.onb.ac.at/rec/AC13956022) | [Digitalisat](https://digital.onb.ac.at/RepViewer/viewer.faces?doc=DOD_51184&order=1&view=SINGLE) | Einteilung nach Sachgebieten \(Fächern\) |
|
|
|
| 3 | Cod. 14.378 | 276 Bl. | xxx | xxx | [Link zum Datensatz](http://data.onb.ac.at/rec/AC13956023) | [Digitalisat](https://onb.digital/result/131ABD79) | Einteilung nach Sachgebieten \(Fächern\) |
|
|
|
| 4 | Cod. 14.379 | 283 Bl. | xxx | xxx | [Link zum Datensatz](http://data.onb.ac.at/rec/AC13956024) | [Digitalisat](https://onb.digital/result/131ABCFD) | Einteilung nach dem Alphabet \(Autorennamen\) |
|
|
|
| 5 | Cod. 14.380 | 261 Bl. | xxx | xxx | [Link zum Datensatz](http://data.onb.ac.at/rec/AC13956025) | [Digitalisat](https://digital.onb.ac.at/RepViewer/viewer.faces?doc=DOD_51195&order=1&view=SINGLE) | Einteilung nach dem Alphabet \(Buchtitel\) |
|
|
|
## Meeting mit Christoph Steindl (09.07.2024) - ÖNB Intern
|
|
|
- tbd
|
|
|
|
|
|
Die Kataloge haben zwei verschiedene Formen:
|
|
|
- Cod. 14.376-14.378: Thematischer Katalog nach dem Schema '*Titel.* (zT. paraphrasiert) *Anzahl der Bände. Ort Jahr. Drucker. n.x* *', sowie die alte Signatur ('*Röm. Zahl. Buchstabe. arab. Zahl*'). Zu Beginn sind die Einträge durchnummeriert, später jedoch nicht mehr
|
|
|
- Cod. 14.379-14.380: Alphabetischer Katalog nach dem Schema '*Name. Titel. Seitennummer im thematischen Katalog*' (14.379), oder '*Titel. Name. Seitennummer im thematischen Katalog*' (14.380) sowie in beiden Fällen die alte Signatur ('*Röm. Zahl. Buchstabe. arab. Zahl*')
|
|
|
|
|
|
# Tools und Entscheidungsfindung #
|
|
|
|
|
|
Für die Handschriftenerkennung der oben genannten Kataloge Cod. 14.376 - Cod. 14.380 wird ein entsprechendes Texterkennungs-Tool benötigt. Da wir uns dagegen entschieden haben, innerhalb des Projekts an einem eigenen Tool zu arbeiten, wurde in einem ersten Schritt nach möglichen Transkriptionsprogramme gesucht.
|
|
|
Zwei Programme werden im folgenden Abschnitt zum Vergleich beschrieben:
|
|
|
|
|
|
## Transkribus ##
|
|
|
Transkribus ist eine Plattform zur Texterkennung, Layout-Analyse und Strukturerkennung von historischen Dokumenten. Hier stehen verschiedene vortrainierte Basismodelle zur Verfügung, die für die Transkription des eigenen Materials verwendet werden können.
|
|
|
Diese Modelle laufen auf einer von drei Text Recognition Engines: HTR+ (seit November 2022 nicht mehr unterstützt), PyLaia oder Transformer HTR (noch nicht Öffentlich verfügbar). Während die beiden erstgenannten insbesondere gut für relativ gleichförmige Handschriften geeignet sind, ist der neue Transformer HTR auch für heterogenes Material und schiefe Basislinien gut geeignet.
|
|
|
Die über Transkribus bereitgestellten PyLaia-Modelle können in der Regel nicht nur zur direkten Transkription verwendet werden, sondern als Basismodelle für ein Training mit eigenen Daten (Deep Learning) verwendet werden.
|
|
|
Die mit Transkribus trainierten Modelle sind nur innerhalb von Transkribus nutzbar.
|
|
|
Derzeit existiert ein "Expert Client", der jedoch abgeschafft werden soll.
|
|
|
|
|
|
Mögliche Schritte mit Transkribus:
|
|
|
- Struktur- und Layout-Voranalyse (separat trainierbar)
|
|
|
- Texterkennung: Transkribus-Modell, selbsttrainiertes Modell oder händisch
|
|
|
- Weiterbearbeitung durch Hinzufügung von Metadaten (für eigene Texterkennungs-Modelle zT. mittrainierbar, genauere Infos folgen unten)
|
|
|
|
|
|
Seite: https://readcoop.eu/de/transkribus/
|
|
|
|
|
|
## EScriptorium ##
|
|
|
EScriptorium ist ein in seinen Grundzügen mit Transkribus vergleichbares Programm, das in den letzten Jahren entwickelt wurde. Ziel ist hier allerdings, möglichst viele unterschiedliche und auch unförmige Schriften zu erkennen. Auch beispielsweise Arabisch kann hier transkribiert werden.
|
|
|
|
|
|
Repository: https://gitlab.com/scripta/escriptorium/
|
|
|
Verwendet die freie OCR-Software Kraken (https://kraken.re/master/index.html) als Basis.
|
|
|
|
|
|
Fürs Projekt wurden keine Tests mit EScriptorium durchgeführt, da der Sammlungskatalog sehr gleichförmig und dementsprechend mit Transkribus gut erfassbar ist.
|
|
|
|
|
|
## Tests mit Transkribus ##
|
|
|
|
|
|
Da Transkribus für die gewünschten Ziele als geeigneter erscheint, wurden einige Tests durchgeführt:
|
|
|
|
|
|
*Erster Test*:
|
|
|
*Input*:
|
|
|
5 Beispielseiten aus Cod. 14.376 (DOD_51202_00025 - DOD_51202_00029).
|
|
|
*Ergebnis*:
|
|
|
Line Segmentation mit Default Einstellungen ergibt ein ausreichendes Ergebnis.
|
|
|
Der gesamte Text der Seite wird als eine Textregion segmentiert.
|
|
|
Automatische Transkription mit Modell PyLaia Decoding (Model: 27457) brachte keine ausreichenden Ergebnisse.
|
|
|
Automatische Transkription mit Modell Acta_17 HTR+ (Modell: 26284) brachte schlechtere Ergebnisse als Modell 27457.
|
|
|
|
|
|
*Zweiter Test*:
|
|
|
*Input*:
|
|
|
5 Beispielseiten aus Cod. 14.376 (fol. IIr-IVv)
|
|
|
HTR+ wurde von Transkribus inzwischen eingestellt, daher (übergangsweise?) nur Modelle verfügbar, die durch PyLaia trainiert wurden.
|
|
|
Auswahlkriterien der Betrachteten Modelle:
|
|
|
- Sprache(n): Modelle mit den Sprachen Latein, Deutsch, Italienisch, ein paar Weitere als Zusatztests
|
|
|
- Set-Größe (/Worte)
|
|
|
- Ergebnisse am eigenen Material
|
|
|
|
|
|
Grundprobleme:
|
|
|
- t's
|
|
|
- einige Großbuchstaben
|
|
|
- Schlingen/Schlaufen von Buchstaben wie zB. "g" können teils in der Zeile darunter nur schwer vom Text getrennt werden
|
|
|
- ; , . und -
|
|
|
- Ligaturen
|
|
|
|
|
|
|
|
|
Die automatischen Transkriptionen mit folgenden Modellen brachten *für eine Verwendung als Base Model ausreichende Ergebnisse*:
|
|
|
- German_Kurrent_17th-18th – Modell 27457
|
|
|
Sprachen im verwendeten Set: Deutsch, Latein, Französisch
|
|
|
Worte im verwendeten Set: 1 839 841
|
|
|
Die maximale Fehlerquote auf den betrachteten Katalog-Seiten beträgt etwa 4,75%
|
|
|
- Transkribus German handwriting M1 – Modell 35909
|
|
|
Sprachen im verwendeten Set: Deutsch
|
|
|
Worte im verwendeten Set: 3 610 922
|
|
|
Die maximale Fehlerquote auf den betrachteten Katalog-Seiten beträgt etwa 4,25%
|
|
|
|
|
|
Die automatischen Transkriptionen mit folgenden Modellen brachten *keine ausreichenden Ergebnisse*:
|
|
|
- Transkribus German Kurrent – Modell 36508
|
|
|
- Transkribus Italian Handwriting M1 - Modell 38440
|
|
|
- Transkribus English Handwriting M3 – Modell 37646
|
|
|
- German_Kurrent_XIX-XX_M6-2 – Modell 38508
|
|
|
- Transkribus Dutch Handwriting M1 – Modell 38291
|
|
|
- German_Kurrent_XIX_pylaia – Modell 26068
|
|
|
- Transkribus Early Kurrent M1 – Modell 37789
|
|
|
|
|
|
Die automatischen Transkriptionen mit folgenden Modellen brachten *besonders schlechte Ergebnisse*:
|
|
|
- Pylaia_NeoLatin_Ravenstein – Modell 27542
|
|
|
- HIMANIS Chancery M1+ - Modell 37839
|
|
|
- Medieval_Scripts_M2.4 – Modell 42143
|
|
|
- Acta_17 PyLaia – Modell 27337
|
|
|
- New France (17th-18th Century) – Modell 46116
|
|
|
|
|
|
## Entscheidung fürs weitere Vorgehen ##
|
|
|
Entscheidung für Transkribus mit den möglichen Base Models 27457 und 35909 wie oben dargestellt. In einem späteren Schritt im Trainingsprozess (ab Base Model Training 2) wurde sich vollständig für Base Model 35909 entschieden.
|
|
|
|
|
|
# Arbeit mit Transkribus #
|
|
|
|
|
|
## Groundtruth Set 1 ##
|
|
|
|
|
|
Für das Groundtruth Set wurden derzeit die folgenden Seiten vorbereitet und sind einsatzbereit:
|
|
|
|
|
|
| Cod. 14.376 | Cod. 14.377 | Cod. 14.378 | Cod. 14.379 | Cod. 14.380 |
|
|
|
| ---- | ---- | ---- | ---- | ---- |
|
|
|
| 2 "Lectori" (Einleitung) | 71 "Poëtica" | 120 "Historia Nova Europae" | 30 "A" | 98 "D" |
|
|
|
| 12 "Miscellanea Historica | 73 "Poëtica" | 131 "Historia Nova Europae" | 32 "A" | 102 "D" |
|
|
|
| 16 "Theologia" | 77 "Poëtica" | 197 "Historia Nova Europae" | 507 "V" | 453 "T" |
|
|
|
| 86* "Theologia" | 97 "Poëtica" | 210* "Historia Nova Europae" | 508 "V" | 481 "V" |
|
|
|
| 90 "Theologia" | 221 "Philologia" | 561 "Imagines Variae Incisae" | | |
|
|
|
| 119 "Theologia" | 223 "Philologia" | | | |
|
|
|
| 194 "Philosophia" | | | | |
|
|
|
| 410 "Grammatica | | | | |
|
|
|
|
|
|
*keine vollständig beschriebene Seite
|
|
|
|
|
|
## Groundtruth Set 2 ##
|
|
|
|
|
|
In einem weiteren Arbeitsschritt wurde das Groundtruth Datenset erweitert um 14 Seiten, sodass es nun folgendes umfasst:
|
|
|
|
|
|
| Hs. Katalog | Seiten als Groundtruth transkribiert |
|
|
|
| ---- | ---- |
|
|
|
| Cod. 14.376 | 2-6, **7**, 8-13, 16, 86, 90, **119**, 194, 410 |
|
|
|
| Cod. 14.377 | 71, 73, 77, 97, 221, **223** |
|
|
|
| Cod. 14.378 | 120, 131, 197, 203, **204**, 210, 338, 339, **561** |
|
|
|
| Cod. 14.379 | 30, 32, 507, 508 |
|
|
|
| Cod. 14.380 | 98, 102, 453, 481 |
|
|
|
|
|
|
Dabei wurden fettgedruckte Seiten für Validation verwendet und normalgedruckte Seiten für Training.
|
|
|
|
|
|
## Erstellung des Groundtruth ##
|
|
|
|
|
|
Die Seiten wurden zum Teil zufällig, zum Teil aufgrund bestimmter Merkmale (verschiedene Schriften, Layout oder Sprachen/Sonderzeichen) ausgewählt.
|
|
|
Das Groundtruth wurde erstellt, indem
|
|
|
- die Baselines angepasst wurden
|
|
|
- die Seiten teils handschriftlich Transkribiert, teils mit Transkribus German handwriting M1 oder Transformer HTR vortranskribiert und dann verbessert wurden
|
|
|
- Strukturelle Tags (nur 'class', 'subclass', 'page-number' und 'format') eingefügt wurden
|
|
|
|
|
|
Für die Erstellung des Groundtruth wurden folgende Entscheidungen getroffen:
|
|
|
|
|
|
*Layout:*
|
|
|
- Pro Seite wird nur ein Textfeld auf dem Groundtruth eingestellt (Allerdings: unser Baseline-Training zerteilt dies in mehrere nicht wohl definierte Textfelder, die allerdings keine Probleme bereiten)
|
|
|
|
|
|
*Text:*
|
|
|
- Für die Transkription wurden alle Punkte transkribiert, also auch solche, die keinen direkten semantischen Inhalt haben
|
|
|
- Im Katalog verzeichnete Umbrüche werden mit dem Zeichen '¬' transkribiert
|
|
|
- 'u', 'v', sowie 'I' und 'J' werden nicht im Sinne des Wortes verbessert, sondern so transkribiert, wie sie geschrieben sind
|
|
|
- Die Großschreibung wird so übernommen, wie notiert. Auch am Wortanfang von Vornamen (insbesondere bei 'a', 's' und 'o') wird diese nicht verbessert
|
|
|
- Wird im Katalog ein entsprechendes Zeichen verwendet, werden auch für die Transkription die Zeichen '&' bzw. '&c' verwendet
|
|
|
- Zum Teil mit einem Punkt versehene Einser in der Nummerierung werden als "normale" Einser dargestellt, also zB. '10' statt 'i0'
|
|
|
- Für das hochgestellte 'o' wird das Gradzeichen '°' verwendet, alle anderen Buchstaben werden hochgestellt. Tritt das 'o' als einer von mehreren Buchstaben in einer hochgestellten Passage auf, wird der normale Buchstabe hochgestellt, um die Einheitlichkeit zu bewahren
|
|
|
- Durchgestrichene Buchstaben, die über dem Text vorgenommen wurden, können von Transkribus nicht ins Wort integriert werden und werden daher auch bei uns weggelassen. Der durchgestrichene Buchstabe wird als solcher (inkl. Durchstreichung) erfasst
|
|
|
- Abbreviaturen wurden im Groundtruth als solche getaggt, hier werden jedoch aufgrund der Seltenheit keine Sonderzeichen für unterschiedliche Abkürzungszeichen eingeführt, sondern alle mit '.' abgekürzt
|
|
|
- Der Rötelstift musste aufgrund seiner schlechten Lesbarkeit bei der Transkription weggelassen werden
|
|
|
|
|
|
## Trainieren ##
|
|
|
|
|
|
### Baseline-Training ###
|
|
|
|
|
|
Das von Transkribus bereitgestellte Standard-Modell für Layouterkennung ist sehr gut im Erkennen von Bereichen mit Buchstaben, nimmt jedoch visuell am Ende einer Zeile stehende Seitennummern oder Signaturen aufgrund der weiten Entfernung als neue Region wahr, obwohl der Zwischenbereich in der Regel durch Punkte (". . . . ." usw.) ausgefüllt ist. Derartige Punkte können auch am Anfang eines Eintrags stehen und geben hier an, dass die Information (zB. Autorenname) dieselbe ist wie im Eintrag darüber. Um diese Informationen nicht zu verlieren und die Zuordnung zwischen beispielsweise Seitennummer und Eintrag einfacher zu machen, soll ein Baseline-Modell trainiert werden:
|
|
|
|
|
|
**Erster Versuch** eines Baseline-Trainings über "Train a new model"/"Baselines" unter Belassung der Voreinstellungen. Auswahl des Modells "Transkribus German handwriting M1" (Modell 35909) als Basis-Modell. Verwendung aller oben genannter Groundtruth-Seiten fürs Training.
|
|
|
<figure>
|
|
|
<img src="uploads/213437d377124290d02add885e55408b/blTraining_Ex1.png" width="900">
|
|
|
<figcaption>Einstellungen beim ersten Baseline-Trainings-Versuch</figcaption>
|
|
|
</figure>
|
|
|
</div>
|
|
|
|
|
|
Ein Test des von uns trainierten Modells (Working Title: "Transkribus Gh M1 - baselineRetrain") bringt auf Zeilenebene zufriedenstellende **Ergebnisse**; die Zeilen werden von vorne bis hinten durchgängig erkannt. Ein Randeffekt ist, dass, anders als von uns eingestellt, jetzt mehrere einzelne Textregionen erkannt werden, statt einer großen. Da dies die Texterkennung und Transkription selbst jedoch nicht weiter beeinflusst, muss hier wird es in Kauf genommen.
|
|
|
<figure>
|
|
|
<img src="uploads/8ef92aa9d2d459a3741bb161d6558bce/baselines2_preset.PNG" height="550">
|
|
|
<img src="uploads/0ef6724edeed7e078b1dc2e6010b89d9/baselines2_ourModel.PNG" height="550">
|
|
|
<figcaption>links: Ergebnis mit "preset"-Baseline-Modell; rechts: Ergebnis mit "Transkribus Gh M1 - baselineRetrain"</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
|
|
|
Im Folgenden wurde das Baseline-Modell auf alle Seiten angewandt.
|
|
|
|
|
|
### Text ###
|
|
|
|
|
|
Wie oben dargestellt gibt es einige Textmodelle, die relativ lesbare, jedoch nicht vollständig zufriedenstellende Ergebnisse bringen. Da hier einige bestimmte Fehler häufig vorkommen, soll ein HTR-Modell trainiert werden, das diese richtig erkennt:
|
|
|
|
|
|
**Erster Versuch** eines Text-Trainings über "Train a new model"/"PyLaia HTR" unter Belassung der Voreinstellungen. Zeilen, in denen Worte als "unclear" getaggt sind, werden nicht fürs Training verwendet; Auswahl des Modells "Transkribus German handwriting M1" (Modell 35909) als Basis-Modell. Verwendung aller oben genannter Groundtruth-Seiten fürs Training. Für das Training des Base-Modells wurden bestimmte Abbreviaturen durch unbenutzte Sonderzeichen ausgetauscht, um diese Stellen mitzutrainieren.
|
|
|
Die Tags "class", "sub-class", "page-number" und "format" werden zur Probe mittrainiert, es kann jedoch gut sein, dass hierfür mehr Seiten notwendig wären.
|
|
|
|
|
|
<figure>
|
|
|
<img src="uploads/d0d3bf102d132036cfd186d159242af5/trainingAll1_2.PNG" width="900">
|
|
|
<figcaption>Einstellungen beim ersten HTR-Trainings-Versuch </figcaption>
|
|
|
</figure>
|
|
|
|
|
|
**Evaluation des ersten Versuchs und Vergleich mit Transformer HTR**
|
|
|
Die durch unser erstes Modell ausgeführten Transkriptionsversuche erzielen lesbare Ergebnisse, allerdings machen verschiedene vom Base-Modell schwer erkennbare Buchstaben noch immer Probleme. Die Buchstaben die verwechselt werden sind insbesondere: t und s, e und c, I und J, g und q, sowie generell Großbuchstaben und Buchstaben, die sich unter Schlaufen des Texts aus der Zeile darüber befinden. Die Erkennung von eigens für Abbreviaturen eingeführten Sonderzeichen war aufgrund der geringen Menge dieser Beispiele leider nicht möglich.
|
|
|
Das Tag-Training scheint nicht zu funktionieren; es werden keinerlei Tags ausgegeben.
|
|
|
|
|
|
Transformer HTR liefert auf Buchstabenebene in etwa gleich gute bis leicht schlechtere Ergebnisse, scheint allerdings auf Basis einiger Wörterbücher zu arbeiten, wodurch erkannte Worte in der Regel eine höhere Korrektheitswahrscheinlichkeit haben, während nicht erkannte Worte Schwierigkeiten in der Erkennung einzelner Buchstaben vermuten lassen.
|
|
|
|
|
|
Im Folgenden soll auf einem erweiterten Groundtruth ein weiteres Training mit denselben Einstellungen durchgeführt werden; Angepasst werden hierfür die Abbreviaturen, die nun allesamt mit "." abgekürzt werden, statt eigens Sonderzeichen einzuführen.
|
|
|
|
|
|
|
|
|
**Weiterer Versuch - Fehlgeschlagen** eines Text-Trainings über "Train a new model"/"PyLaia HTR" unter Belassung der Voreinstellungen. Zeilen, in denen Worte als "unclear" getaggt sind, werden nicht fürs Training verwendet; Auswahl des Modells "German_Kurrent_17th-18th" (Modell 27457) als Basis-Modell. Verwendung aller oben genannter Groundtruth-Seiten fürs Training. Für das Training des Base-Modells wurden bestimmte Abbreviaturen durch unbenutzte Sonderzeichen ausgetauscht, um diese Stellen mitzutrainieren.
|
|
|
Die Tags "class", "sub-class", "page-number" und "format" werden zur Probe mittrainiert, es kann jedoch gut sein, dass hierfür mehr Seiten notwendig wären.
|
|
|
|
|
|
<figure>
|
|
|
<img src="uploads/2211e4ed4d123ffc39a0ae6a08d7cf45/trainingAll_2.PNG" width="900">
|
|
|
<figcaption>Einstellungen bei einem Weiteren HTR-Trainings-Versuch </figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Der Versuch bringt wesentlich schlechtere Ergebnisse als der Versuch mit Basis-Modell 35909, und wird deshalb nicht weiter verfolgt.
|
|
|
|
|
|
**Erneutes Training des Modells 35909 mit Groundtruth Set 2**
|
|
|
|
|
|
Es wurde ein erneutes Training des Modells 35909 durchgeführt, diesmal mit dem erweiterten Groundtruth Set 2. Dabei wurden die folgenden (ähnlich zu davor) Einstellungen verwendet:
|
|
|
|
|
|
<figure>
|
|
|
<img src="uploads/training/training_GT_2.png" width="900">
|
|
|
<figcaption>Einstellungen für erneutes Training des Modells 35909 mit erweiterter Groundtruth</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Fehlgeschlagen, da in neuer Transkribus-Version 1.24.2 die Option "Binarization" schon aktiviert war. Daher CER/WER bei 82.7% / 87.9%.
|
|
|
|
|
|
**Weiteres Training des Modells 35909 mit Groundtruth Set 2**
|
|
|
|
|
|
Es wurde ein erneutes Training des Modells 35909 durchgeführt, diesmal mit dem erweiterten Groundtruth Set 2 und voriger Transkribus-Version 1.24.1. Dabei wurden die folgenden (ähnlich zu davor) Einstellungen verwendet:
|
|
|
|
|
|
<figure>
|
|
|
<img src="uploads/training/training_GT_3.png" width="900">
|
|
|
<figcaption>Einstellungen für erneutes Training des Modells 35909 mit erweiterter Groundtruth</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
### Strukturelle Tags ###
|
|
|
|
|
|
Wie im Abschnitt "Text" erwähnt, wurden hier die Tags "class", "sub-class", "page-number" und "format" mittrainiert. Leider lieferte dieses Training keine ersichtlichen Ergebnisse: Eine Transkription mit unserem Transkriptionstool gibt lediglich Text, aber keinerlei Tags als Lösung zurück.
|
|
|
|
|
|
### Auswertung des Trainings für die Auswahl des Modells mithilfe des Validierungs-Set ###
|
|
|
|
|
|
Für die Auswahl des Modells, welche auf die restlichen 2447 Seiten des handschriftlichen Katalogs angewendet werden soll, möchten wir eine Evaluation der bisher trainierten Modelle auf dem Validierungs-Set vornehmen. Dazu wurden manuell die Fehler für jedes Modell pro Seite gezählt (um die Word error rate zu bestimmen), siehe die folgende Tabelle. Wir listen zuerst die Basis-Modelle für unsere Trainings auf, sowie das auf einer Transformer-Architektur basierende Modell T100. Die Modelle, welche mit „BED_“ beginnen sind von uns trainiert worden.
|
|
|
|
|
|
| Modellname | Modell-Id | #F.(S. 1) | #F.(S. 2) | #F.(S. 3) | #F.(S. 4) | #F.(S. 5) | WER<sub>all</sub> [%] | WER<sub>{1, 3, 4}</sub> [%] |
|
|
|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|
|
|
| German_Kurrent_17th-18th | 27457 | 40 | 57 | 52 | 54 | 66 | 26.6 | 30.3 |
|
|
|
| Transkribus German handwriting M1 | 35909 | 29 | 44 | 47 | 40 | 59 | 21.7 | 24.1 |
|
|
|
| Transformer HTR T100 | 44522 | 6 | 14 | 19 | 14 | 35 | 8.7 | 8.1 |
|
|
|
| BED_TextTraining1_GKurr17-18 | 49384 | 6 | 77 | 15 | 21 | 80 | 19.7 | 8.7 |
|
|
|
| BED_TestModel1 | 49357 | 1 | 42 | 8 | 11 | 50 | 11.1 | 4.1 |
|
|
|
| BED_TestModel3 | 49656 | 3 | 48 | 9 | 6 | 53 | 11.8 | 3.7 |
|
|
|
|
|
|
Mit der zusätzlichen Information, dass sich im Validationsdatenset ingesamt 1011 Wörter befinden, können wir daher die Fehlerrate pro Wort (Word error rate – WER) bestimmen. Wir beobachten, dass die Seiten 2 und 5 wahrscheinlich besonders aufgrund von Unregelmäßigkeiten im Schriftbild und Vorkommen von unleserlichen Passagen mit Rötelstift viele Fehler verursachen. Daher berechnen wir ebenso die WER nur für die Seiten 1, 3 und 4, auf denen sich in Summe 482 Wörter befinden. Siehe das folgende Schaubild für einen Vergleich der Fehlerraten auf dem vollen Validierungsset und auf dem (auf die Seiten 1, 3 und 4) eingeschränkten Set:
|
|
|
|
|
|
<figure>
|
|
|
<img src="uploads/training/WER_Validation.png" width="900">
|
|
|
<figcaption>Vergleich der Wortfehlerraten auf dem Validierungsset. WER<sub>all</sub> bezeichnet die Wortfehlerrate auf dem gesamten Validierungsset und WER<sub>{1, 3, 4}</sub> diejenige auf den Seiten 1, 3 und 4.</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Wir lesen aus den Wortfehlerraten ab, dass die drei Modelle Transformer HTR T100 (44522), BED_TestModel1 (49357) und BED_TestModel3 (49656) am wenigsten fehlerhaft transkribieren. Wie zuvor erwähnt gibt es jedoch Unterschiede in der Performanz auf den Seiten 1, 3 und 4 beziehungsweise 2 und 5. Das Modell T100 liefert auf beiden Mengen vergleichbare Ergebnisse, wogegen die beiden von uns trainierten Modelle, BED_TestModel1 und BED_TestModel3, deutlich bessere Ergebnisse auf dem ersten Set und deutlich schlechtere Ergebnisse auf dem zweiten (und daher auch auf dem gesamten) Set liefern.
|
|
|
|
|
|
Um die Entscheidung für oder gegen eines der Modelle treffen zu können, werden wir abschätzen müssen ob die Mehrzahl der Seiten eher regelmäßig beschrieben sind (vergleichbar zu S. 1, 3 und 4) oder eher Unregelmäßigkeiten aufweisen.
|
|
|
|
|
|
# Offene Fragen #
|
|
|
[ ] Transkriptionsrichtlinien auf Grundlage der [Richtlinien der DTA](https://www.deutschestextarchiv.de/doku/basisformat/transkription.html) erstellen @TartlerA und @MartinKrickl |
|
|
\ No newline at end of file |
|
|
## Meeting mit Christoph Steindl (22.07.2024) - ÖNB + UBK
|
|
|
- |