@@ -169,7 +169,7 @@ Für die Auswahl des Modells, welche auf die restlichen 2447 Seiten des handschr
Mit der zusätzlichen Information, dass sich im Validationsdatenset ingesamt 1011 Wörter befinden, können wir daher die Fehlerrate pro Wort (Word error rate – WER) bestimmen. Wir beobachten, dass die Seiten 2 und 5 wahrscheinlich besonders aufgrund von Unregelmäßigkeiten im Schriftbild und Vorkommen von unleserlichen Passagen mit Rötelstift viele Fehler verursachen. Daher berechnen wir ebenso die WER nur für die Seiten 1, 3 und 4, auf denen sich in Summe 482 Wörter befinden. Siehe das folgende Schaubild für einen Vergleich der Fehlerraten auf dem vollen Validierungsset und auf dem (auf die Seiten 1, 3 und 4) eingeschränkten Set:
<figcaption>Vergleich der Wortfehlerraten auf dem Validierungsset. WER<sub>all</sub> bezeichnet die Wortfehlerrate auf dem gesamten Validierungsset und WER<sub>{1, 3, 4}</sub> diejenige auf den Seiten 1, 3 und 4.</figcaption>
</figure>
...
...
@@ -212,7 +212,3 @@ In Summe erhalten wir also eine Wortfehlerrate von 3,7% auf 60 Testseiten der B
Nicht erfasst wurden im Prozess nicht-textuelle Markierungen:
- Markierung mit Rötelstift bei einem Großteil der Einträge (Abhaken der Bände für eine erneute Inventarisierung?)
- Klammern links oder rechts von den Einträgen (Zusammenfassen mehrerer Einträge in eine (bibliographische?) Einheit?)
\ No newline at end of file
# Offene Fragen #
[ ] Transkriptionsrichtlinien auf Grundlage der [Richtlinien der DTA](https://www.deutschestextarchiv.de/doku/basisformat/transkription.html) erstellen @TartlerA und @MartinKrickl