|
|
[[_TOC_]]
|
|
|
|
|
|
# Arbeit mit Transkribus #
|
|
|
|
|
|
## Groundtruth Set 1 ##
|
|
|
|
|
|
Für das Groundtruth Set wurden derzeit die folgenden Seiten vorbereitet und sind einsatzbereit:
|
|
|
|
|
|
| Cod. 14.376 | Cod. 14.377 | Cod. 14.378 | Cod. 14.379 | Cod. 14.380 |
|
|
|
| ---- | ---- | ---- | ---- | ---- |
|
|
|
| 2 "Lectori" (Einleitung) | 71 "Poëtica" | 120 "Historia Nova Europae" | 30 "A" | 98 "D" |
|
|
|
| 12 "Miscellanea Historica | 73 "Poëtica" | 131 "Historia Nova Europae" | 32 "A" | 102 "D" |
|
|
|
| 16 "Theologia" | 77 "Poëtica" | 197 "Historia Nova Europae" | 507 "V" | 453 "T" |
|
|
|
| 86* "Theologia" | 97 "Poëtica" | 210* "Historia Nova Europae" | 508 "V" | 481 "V" |
|
|
|
| 90 "Theologia" | 221 "Philologia" | 561 "Imagines Variae Incisae" | | |
|
|
|
| 119 "Theologia" | 223 "Philologia" | | | |
|
|
|
| 194 "Philosophia" | | | | |
|
|
|
| 410 "Grammatica | | | | |
|
|
|
|
|
|
*keine vollständig beschriebene Seite
|
|
|
|
|
|
## Groundtruth Set 2 ##
|
|
|
|
|
|
In einem weiteren Arbeitsschritt wurde das Groundtruth Datenset erweitert um 14 Seiten, sodass es nun folgendes umfasst:
|
|
|
|
|
|
| Hs. Katalog | Seiten als Groundtruth transkribiert |
|
|
|
| ---- | ---- |
|
|
|
| Cod. 14.376 | 2-6, **7**, 8-13, 16, 86, 90, **119**, 194, 410 |
|
|
|
| Cod. 14.377 | 71, 73, 77, 97, 221, **223** |
|
|
|
| Cod. 14.378 | 120, 131, 197, 203, **204**, 210, 338, 339, **561** |
|
|
|
| Cod. 14.379 | 30, 32, 507, 508 |
|
|
|
| Cod. 14.380 | 98, 102, 453, 481 |
|
|
|
|
|
|
Dabei wurden fettgedruckte Seiten für Validation verwendet und normalgedruckte Seiten für Training.
|
|
|
|
|
|
## Erstellung des Groundtruth ##
|
|
|
|
|
|
Die Seiten wurden zum Teil zufällig, zum Teil aufgrund bestimmter Merkmale (verschiedene Schriften, Layout oder Sprachen/Sonderzeichen) ausgewählt.
|
|
|
Das Groundtruth wurde erstellt, indem
|
|
|
- die Baselines angepasst wurden
|
|
|
- die Seiten teils handschriftlich Transkribiert, teils mit Transkribus German handwriting M1 oder Transformer HTR vortranskribiert und dann verbessert wurden
|
|
|
- Strukturelle Tags (nur 'class', 'subclass', 'page-number' und 'format') eingefügt wurden
|
|
|
|
|
|
Für die Erstellung des Groundtruth wurden folgende Entscheidungen getroffen:
|
|
|
|
|
|
*Layout:*
|
|
|
- Pro Seite wird nur ein Textfeld auf dem Groundtruth eingestellt
|
|
|
|
|
|
*Text:*
|
|
|
- Für die Transkription wurden alle Punkte transkribiert, also auch solche, die keinen semantischen Inhalt haben
|
|
|
- Im Katalog verzeichnete Umbrüche werden mit dem Zeichen '¬' transkribiert
|
|
|
- 'u', 'v', sowie 'I' und 'J' werden nicht im Sinne des Wortes verbessert, sondern so transkribiert, wie sie geschrieben sind
|
|
|
- Die Großschreibung wird so übernommen, wie notiert. Auch am Wortanfang von Vornamen (insbesondere bei 'a', 's' und 'o') wird diese nicht verbessert
|
|
|
- Wird im Katalog das Zeichen '&' bzw. '&c' verwendet, so werden diese auch als solche Transkribiert
|
|
|
- Im arabischen Kontext zu Lesende Einser werden als '1' dargestellt (also beispielsweise '10' statt 'i0')
|
|
|
- Für das hochgestellte 'o' wird das Gradzeichen '°' verwendet, alle anderen Buchstaben werden hochgestellt. Tritt das 'o' als einer von mehreren Buchstaben in einer hochgestellten Passage auf, wird der normale Buchstabe hochgestellt, um die Einheitlichkeit zu bewahren
|
|
|
- Durchgestrichene Buchstaben, die über dem Text vorgenommen wurden, können von Transkribus nicht ins Wort integriert werden und werden daher auch bei uns weggelassen. Der durchgestrichene Buchstabe wird als solcher (inkl. Durchstreichung) erfasst
|
|
|
- Abbreviaturen wurden im Groundtruth als solche getaggt, hier werden jedoch aufgrund der Seltenheit keine Sonderzeichen für unterschiedliche Abkürzungszeichen eingeführt, sondern alle mit '.' abgekürzt
|
|
|
- Passagen mit Rötelstift mussten aufgrund der schweren Lesbarkeit als "unclear" markiert werden. Dies hat zur Folge, dass Transkribus die entsprechenden Zeilen in ihrer Gesamtheit nicht fürs Training verwendet
|
|
|
|
|
|
## Trainieren ##
|
|
|
|
|
|
### Baseline-Training ###
|
|
|
|
|
|
**Transkribus-Standard-Modell**
|
|
|
|
|
|
Das von Transkribus bereitgestellte Standard-Modell für Layouterkennung ist sehr gut im Erkennen von Bereichen mit Buchstaben, ignoriert jedoch Stellen mit mehreren aufeinanderfolgenden Punkten. Diese Punkte werden in Folge gar nicht transkribiert, da das HTR-Modell auf Basis der Baselines arbeitet. Dies hat zweierlei Konsequenzen:
|
|
|
1. Punkte, die eingefügt wurden, um einen layouttechnischen Zusammenhang (= eine gemeinsame Zeile) darzustellen, gehen verloren. Resultat sind zwei separate Teilzeilen, und damit ein weniger klares Mapping zwischen Titel und Signatur.
|
|
|
2. Punkte zu Beginn eines neuen Eintrags gehen verloren. Diese Punkte tragen zum Teil semantischen Inhalt, indem sie Anzeigen, dass die Information des darüber befindlichen Eintrags (idR. Autorenname) übernommen werden soll.
|
|
|
|
|
|
Um diese Informationen nicht zu verlieren und die Zuordnung zwischen beispielsweise Seitennummer und Eintrag einfacher zu machen, soll ein Baseline-Modell trainiert werden:
|
|
|
|
|
|
**Baseline-Training**
|
|
|
|
|
|
Training eines Baseline-Modells über "Train a new model"/"Baselines" unter Belassung der Voreinstellungen (max. 100 Epochen/Lernrate 0.001). Auswahl des Modells "Transkribus German handwriting M1" (Modell 35909) als Basis-Modell. Verwendung aller Groundtruth-Seiten aus GT-Set 1 fürs Training, wobei die Seiten 14-377/73 und 14.379/30 (= etwa 7% der Baselines aus GT-Set 1) als Validation Set verwendet wurden.
|
|
|
|
|
|
| Set | Seiten | Zeilen | Wörter |
|
|
|
| ---- | ---- | ---- | ---- |
|
|
|
| **Training** | 25 | 711 | 4865 |
|
|
|
| **Validation** | 2 | 54 | 389 |
|
|
|
|
|
|
Ein Test des von uns trainierten Modells ("Transkribus Gh M1 - baselineRetrain") bringt auf Zeilenebene zufriedenstellende **Ergebnisse**; die Zeilen werden von vorne bis hinten durchgängig erkannt.
|
|
|
|
|
|
Hier zeigen sich zwei Schwierigkeiten
|
|
|
1. Es werden teilweise Stellen mit Baselines unterlegt, die nicht als Text erkannt und transkribiert werden sollen. Hierbei handelt es sich einerseits um Tintenkleckse und Durchschläge von der Rückseite, sowie andererseits um Texte gegenüberliegender Seiten, die im Scanprozess nicht korrekt abgeschnitten wurden.
|
|
|
2. Das Baselinemodell erkennt nicht mehr ein durchgängiges Textfeld, sondern mehrere Einzelne. Dies beeinflusst die Reihenfolge der Zeilen, da die einzelnen Textfelder nacheinander jeweils von oben nach unten angegeben werden.
|
|
|
|
|
|
Trotz dieser Punkte wird das Baseline-Modell über den gesamten Katalog verwendet. Um eine möglichst saubere Transkription und angenehme Auswertung zu gewährleisten, werden die Baselines manuell nachkorrigiert.
|
|
|
|
|
|
### Text ###
|
|
|
|
|
|
Wie oben dargestellt gibt es einige Textmodelle, die relativ lesbare, jedoch nicht vollständig zufriedenstellende Ergebnisse bringen. Da hier einige bestimmte Fehler häufig vorkommen, soll ein HTR-Modell trainiert werden, das diese richtig erkennt:
|
|
|
|
|
|
**Text-Training mit Groundtruth-Set 1**
|
|
|
|
|
|
Erster Versuch eines Text-Trainings über "Train a new model"/"PyLaia HTR" unter Belassung der Voreinstellungen (max. 250 Epochen/Lernrate 0.0003). Als Grundlage des Trainings dinenen das Basis-Modell "Transkribus German handwriting M1" (Modell 35909), sowie das gesamte Groundtruth 1 (vgl. oben), wobei die Seiten 14.376/119, 14.377/223 und 14.378/561 (= etwa 13,2% des Texts aus GT-Set 1) als Validation Set verwendet wurden.
|
|
|
|
|
|
| Set | Seiten | Zeilen | Wörter |
|
|
|
| ---- | ---- | ---- | ---- |
|
|
|
| **Training** | 24 | 666 | 4560 |
|
|
|
| **Validation** | 3 | 99 | 694 |
|
|
|
|
|
|
Zeilen, in denen Worte als "unclear" getaggt sind, werden nicht fürs Training verwendet. Für das Training des Base-Modells wurden bestimmte Abbreviaturen durch unbenutzte Sonderzeichen ausgetauscht, um diese Stellen mitzutrainieren.
|
|
|
Die Tags "class", "sub-class", "page-number" und "format" werden zur Probe mittrainiert, es kann jedoch gut sein, dass hierfür mehr Seiten notwendig wären.
|
|
|
|
|
|
***Evaluation des ersten Versuchs und Vergleich mit Transformer HTR***
|
|
|
Die durch unser erstes Modell ausgeführten Transkriptionsversuche erzielen lesbare Ergebnisse, allerdings machen verschiedene vom Base-Modell schwer erkennbare Buchstaben noch immer Probleme. Die Buchstaben die verwechselt werden sind insbesondere: t und s, e und c, I und J, g und q, sowie generell Großbuchstaben und Buchstaben, die sich unter Schlaufen des Texts aus der Zeile darüber befinden. Die Erkennung von eigens für Abbreviaturen eingeführten Sonderzeichen war aufgrund der geringen Menge dieser Beispiele leider nicht möglich.
|
|
|
Das Tag-Training scheint nicht zu funktionieren; es werden keinerlei Tags ausgegeben.
|
|
|
|
|
|
Transformer HTR liefert auf Buchstabenebene in etwa gleich gute bis leicht schlechtere Ergebnisse, scheint allerdings auf Basis einiger Wörterbücher zu arbeiten, wodurch erkannte Worte in der Regel eine höhere Korrektheitswahrscheinlichkeit haben, während nicht erkannte Worte Schwierigkeiten in der Erkennung einzelner Buchstaben vermuten lassen.
|
|
|
|
|
|
Im Folgenden soll auf einem erweiterten Groundtruth ein weiteres Training mit denselben Einstellungen durchgeführt werden; Angepasst werden hierfür die Abbreviaturen, die nun allesamt mit "." abgekürzt werden, statt eigens Sonderzeichen einzuführen.
|
|
|
|
|
|
|
|
|
***Text-Training 2 - Fehlgeschlagen***
|
|
|
|
|
|
Weiterer Versuch eines Text-Trainings über "Train a new model"/"PyLaia HTR" unter Belassung der Voreinstellungen (max. 250 Epochen/Lernrate 0.0003). Als Grundlage des Trainings dinenen das Basis-Modell "German_Kurrent_17th-18th" (Modell 27457) , sowie das gesamte Groundtruth 1 (vgl. oben), wobei die Seiten 14.376/119, 14.377/223 und 14.378/561 (= etwa 13,2% des Texts aus GT-Set 1) als Validation Set verwendet wurden.
|
|
|
|
|
|
| Set | Seiten | Zeilen | Wörter |
|
|
|
| ---- | ---- | ---- | ---- |
|
|
|
| **Training** | 24 | 666 | 4560 |
|
|
|
| **Validation** | 3 | 99 | 694 |
|
|
|
|
|
|
Zeilen, in denen Worte als "unclear" getaggt sind, werden nicht fürs Training verwendet. Für das Training des Base-Modells wurden wie bei Versuch eins bestimmte Abbreviaturen durch unbenutzte Sonderzeichen ausgetauscht, um diese Stellen mitzutrainieren.
|
|
|
Die Tags "class", "sub-class", "page-number" und "format" werden zur Probe mittrainiert, es kann jedoch gut sein, dass hierfür mehr Seiten notwendig wären.
|
|
|
|
|
|
Der Versuch bringt wesentlich schlechtere Ergebnisse als der Versuch mit Basis-Modell 35909, und wird deshalb nicht weiter verfolgt.
|
|
|
|
|
|
|
|
|
**Training mit Groundtruth Set 2 - Modell 35909**
|
|
|
|
|
|
Es wurde wiederum unter Belassung der Voreinstellungen (max. 250 Epochen/Lernrate 0.0003) ein erneutes Training des Modells 35909 durchgeführt. Als Grundlage des Trainings dinenen das Basis-Modell "Transkribus German handwriting M1" (Modell 35909), sowie das um XXX erweiterte gesamte Groundtruth (Grundtruth 2, vgl. oben), wobei die Seiten 14.376/7, 14.376/119, 14.377/223, 14.378/204 und 14.378/561 (= etwa 14,6% der Worte aus GT-Set 2) als Validation Set verwendet wurden.
|
|
|
|
|
|
| Set | Seiten | Zeilen | Wörter |
|
|
|
| ---- | ---- | ---- | ---- |
|
|
|
| **Training** | 36 | 927 | 5907 |
|
|
|
| **Validation** | 5 | 152 | 1011 |
|
|
|
|
|
|
***Text-Training 3 - Fehlgeschlagen***
|
|
|
|
|
|
Ein Trainings-Versuch mit den gerade genannten Einstellungen schlug fehl, da in neuer Transkribus-Version 1.24.2 die Option "Binarization" schon aktiviert war. Daher CER/WER bei 82.7% / 87.9%.
|
|
|
|
|
|
|
|
|
***Text-Training 4***
|
|
|
|
|
|
Es wurde ein erneutes Training des Modells 35909 mit exakt denselben Materialien und Einstellungen, jedoch mit voriger Transkribus-Version 1.24.1., durchgeführt. Das Training brachte gute Ergebnisse.
|
|
|
|
|
|
Im Folgenden wurde sich für dieses Modell entschieden, eine Ausführung dieser Entscheidung erfolgt auf dieser Seite weiter unten.
|
|
|
|
|
|
|
|
|
### Strukturelle Tags ###
|
|
|
|
|
|
Wie im Abschnitt "Text" erwähnt, wurden hier die Tags "class", "sub-class", "page-number" und "format" mittrainiert. Leider lieferte dieses Training keine ersichtlichen Ergebnisse: Eine Transkription mit unserem Transkriptionstool gibt lediglich Text, aber keinerlei Tags als Lösung zurück.
|
|
|
|
|
|
|
|
|
### Auswertung des Trainings für die Auswahl des Modells mithilfe des Validierungs-Set ###
|
|
|
|
|
|
Für die Auswahl des Modells, welche auf die restlichen 2447 Seiten des handschriftlichen Katalogs angewendet werden soll, möchten wir eine Evaluation der bisher trainierten Modelle auf dem Validierungs-Set vornehmen. Dazu wurden manuell die Fehler für jedes Modell pro Seite gezählt (um die Word error rate zu bestimmen), siehe die folgende Tabelle. Wir listen zuerst die Basis-Modelle für unsere Trainings auf, sowie das auf einer Transformer-Architektur basierende Modell T100. Die Modelle, welche mit „BED_“ beginnen sind von uns trainiert worden.
|
|
|
|
|
|
| Modellname | Modell-Id | #Fehler(S. 1) | #Fehler(S. 2) | #Fehler(S. 3) | #Fehler(S. 4) | #Fehler(S. 5) | WER<sub>all</sub> [%] | WER<sub>{1, 3, 4}</sub> [%] |
|
|
|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|
|
|
| German_Kurrent_17th-18th | 27457 | 40 | 57 | 52 | 54 | 66 | 26.6 | 30.3 |
|
|
|
| Transkribus German handwriting M1 | 35909 | 29 | 44 | 47 | 40 | 59 | 21.7 | 24.1 |
|
|
|
| Transformer HTR T100 | 44522 | 6 | 14 | 19 | 14 | 35 | 8.7 | 8.1 |
|
|
|
| BED_TextTraining1_GKurr17-18 | 49384 | 6 | 77 | 15 | 21 | 80 | 19.7 | 8.7 |
|
|
|
| BED_TestModel1 | 49357 | 1 | 42 | 8 | 11 | 50 | 11.1 | 4.1 |
|
|
|
| BED_TestModel3 | 49656 | 3 | 48 | 9 | 6 | 53 | 11.8 | 3.7 |
|
|
|
|
|
|
Mit der zusätzlichen Information, dass sich im Validationsdatenset ingesamt 1011 Wörter befinden, können wir daher die Fehlerrate pro Wort (Word error rate – WER) bestimmen. Wir beobachten, dass die Seiten 2 und 5 wahrscheinlich besonders aufgrund von Unregelmäßigkeiten im Schriftbild und Vorkommen von unleserlichen Passagen mit Rötelstift viele Fehler verursachen. Daher berechnen wir ebenso die WER nur für die Seiten 1, 3 und 4, auf denen sich in Summe 482 Wörter befinden. Siehe das folgende Schaubild für einen Vergleich der Fehlerraten auf dem vollen Validierungsset und auf dem (auf die Seiten 1, 3 und 4) eingeschränkten Set:
|
|
|
|
|
|
<figure>
|
|
|
<img src="uploads/training/WER_Validation.png" width="900">
|
|
|
<figcaption>Vergleich der Wortfehlerraten auf dem Validierungsset. WER<sub>all</sub> bezeichnet die Wortfehlerrate auf dem gesamten Validierungsset und WER<sub>{1, 3, 4}</sub> diejenige auf den Seiten 1, 3 und 4.</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Wir lesen aus den Wortfehlerraten ab, dass die drei Modelle Transformer HTR T100 (44522), BED_TestModel1 (49357) und BED_TestModel3 (49656) am wenigsten fehlerhaft transkribieren. Wie zuvor erwähnt gibt es jedoch Unterschiede in der Performanz auf den Seiten 1, 3 und 4 beziehungsweise 2 und 5. Das Modell T100 liefert auf beiden Mengen vergleichbare Ergebnisse, wogegen die beiden von uns trainierten Modelle, BED_TestModel1 und BED_TestModel3, deutlich bessere Ergebnisse auf dem ersten Set und deutlich schlechtere Ergebnisse auf dem zweiten (und daher auch auf dem gesamten) Set liefern.
|
|
|
|
|
|
Um die Entscheidung für oder gegen eines der Modelle treffen zu können, wollen wir abschätzen, ob die Mehrzahl der Seiten eher regelmäßig beschrieben sind (vergleichbar zu den Seiten 1, 3 und 4 des Validierungs-Sets) oder eher Unregelmäßigkeiten aufweisen.
|
|
|
|
|
|
Dazu wurden 100 zufällig ausgewählte (20 je Band) Seiten in die beiden Kategorien regelmäßig und unregelmäßig eingeteilt. Es wurden Seiten nur dann als regelmäßig klassifiziert, wenn jeder Titeleintrag mit seinem Text gut lesbar ist, Randnotizen oder abschließende Vermerke wurden dabei ausgenommen. Die Rohdaten finden sich in der folgenden Tabelle:
|
|
|
|
|
|
| Band | Regelmäßige Seiten | Unregelmäßige Seiten | Anzahl regelmäßiger Seiten | Anzahl unregelmäßiger Seiten |
|
|
|
| ---- | ---- | ---- | ---- | ---- |
|
|
|
| 14.376 | 12, 15, 16, 44, 57, 71, 111, 114, 140, 216, 279, 302, 327, 346, 377, 379 | 47, 52, 119, 125 | 16 | 4 |
|
|
|
| 14.377 | 3, 13, 81, 101, 112, 142, 214, 229, 258, 287, 301, 308, 332, 366, 388, 412 | 279, 359, 414, 445 | 16 | 4 |
|
|
|
| 14.378 | 44, 94, 99, 127, 159, 220, 270, 284, 348, 352, 389, 432, 470, 549 | 80, 104, 300, 344, 367, 387 | 14 | 6 |
|
|
|
| 14.379 | 73, 81, 166, 175, 196, 296, 370, 373, 389 | 46, 71, 103, 214, 233, 238, 273, 284, 363, 379, 464 | 9 | 11 |
|
|
|
| 14.380 | 28, 126, 194, 327, 350, 352, 373, 420, 431 | 83, 112, 117, 138, 166, 236, 273, 285, 393, 397, 473 | 9 | 11 |
|
|
|
|
|
|
Über alle Bände gesehen liegt das Verhältnis bei 64% regelmäßigen zu 36% unregelmäßigen Seiten. Betrachtet man dagegen nur die ersten drei Bände, so liegt das Verhältnis bei 77% zu 23% zugunsten der regelmäßigen Seiten.
|
|
|
|
|
|
Da unser Fokus (für den Abgleich der Einträge mit dem Katalog) auf den ersten drei Bänden liegt, entscheiden wir uns dafür, die von uns trainierten Modelle (49357 oder 49656) zu verwenden, da sie auf regelmäßigen Seiten die geringste Fehlerquote aufweisen. Die finale Entscheidung fällt auf das Modell BED_TestModel3 (Id 49656) aufgrund der minimal geringeren Fehlerquote auf regelmäßigen Seiten.
|
|
|
|
|
|
# Anwendung #
|
|
|
|
|
|
Zunächst wenden wir das Modell 49656 auf die Bände 1-3 (Cod. 14.376 bis 14.378) an. Als Vorbereitung dafür wurde die (zuvor trainierte und dann auf alle Seiten ausgerollte) Layouterkennung manuell kontrolliert und auf eine Textregion pro Seite reduziert, sowie die Seiten mit wenigen Zeilen Textinhalt manuell transkribiert und als „done“ markiert. Durch Filtern vor der Anwendung wurden diese Seiten von der Texterkennung ausgeschlossen. Die Dauer für die HTR war:
|
|
|
|
|
|
- 2h 16m für Band 1 (Cod. 14.376)
|
|
|
- 1h 32m für Band 2 (Cod. 14.377)
|
|
|
- 3h 52m für Band 3 (Cod. 14.378)
|
|
|
|
|
|
Um die Qualität der so erzeugten Texte abschätzen zu können, bestimmen wir die Wortfehlerrate auf 20 Testseiten je Band (die selben 20 Seiten, die schon zuvor für die Unterteilung in regelmäßige und unregelmäßige Seiten verwendet wurden). Dabei wurden Fehler bei Zahlen, Apostrophen, Akzenten, Satzzeichen, Groß-/Kleinschreibung und Leerzeichen ignoriert sowie die Gesamtzahl der Wörter je Seite mithilfe von LibreOffice Writer (alternativ MS Word) bestimmt. Wir erhalten folgende Wortfehlerraten:
|
|
|
|
|
|
- Band 1: Auf 20 Probeseiten waren 118 von insgesamt 3156 Wörtern falsch, entspricht ca. 3,7% WER
|
|
|
- Band 2: Auf 20 Probeseiten waren 99 von insgesamt 3118 Wörtern falsch, entspricht ca. 3,2% WER
|
|
|
- Band 3: Auf 20 Probeseiten waren 154 von insgesamt 3836 Wörtern falsch, entspricht ca. 4,0% WER
|
|
|
|
|
|
In Summe erhalten wir also eine Wortfehlerrate von 3,7% auf 60 Testseiten der Bände 1-3. Die manuelle Korrektur der Bände 1-3 soll höher priorisiert werden als die Layout-Korrektur (und anschließende HTR) der Bände 4 und 5.
|
|
|
|
|
|
# Offene Fragen #
|
|
|
|
|
|
[ ] Transkriptionsrichtlinien auf Grundlage der [Richtlinien der DTA](https://www.deutschestextarchiv.de/doku/basisformat/transkription.html) erstellen @TartlerA und @MartinKrickl |