In diesem Bereich finden sich alle Informationen zum Entscheidungsprozess für ein HTR-Tool.
Tools und Entscheidungsfindung
Für die Handschriftenerkennung der oben genannten Kataloge Cod. 14.376 - Cod. 14.380 wird ein entsprechendes Texterkennungs-Tool benötigt. Da wir uns dagegen entschieden haben, innerhalb des Projekts ein eigenes Tool zu entwickeln, wurde in einem ersten Schritt nach möglichen Transkriptionsprogrammen gesucht. Zwei Programme werden im folgenden Abschnitt zum Vergleich beschrieben:
Transkribus
Transkribus ist eine Plattform zur Texterkennung, Layout-Analyse und Strukturerkennung von historischen Dokumenten. Hier stehen verschiedene vortrainierte Basismodelle zur Verfügung, die für die Transkription des eigenen Materials verwendet werden können. Diese Modelle laufen auf einer von drei Text Recognition Engines: HTR+ (seit November 2022 nicht mehr unterstützt), PyLaia oder Transformer HTR (noch nicht Öffentlich verfügbar). Während die beiden erstgenannten insbesondere gut für relativ gleichförmige Handschriften geeignet sind, ist das neue Transformer HTR Modell auch für heterogenes Material und schiefe Basislinien gut geeignet. Die über Transkribus bereitgestellten PyLaia-Modelle können in der Regel nicht nur zur direkten Transkription verwendet werden, sondern als Basismodelle für ein Training mit eigenen Daten (Deep Learning) verwendet werden. Die mit Transkribus trainierten Modelle sind nur innerhalb von Transkribus nutzbar. Derzeit existiert ein "Expert Client", der jedoch abgeschafft werden soll.
Mögliche Schritte mit Transkribus:
- Struktur- und Layout-Voranalyse (separat trainierbar)
- Texterkennung: Transkribus-Modell, selbsttrainiertes Modell oder händisch
- Weiterbearbeitung durch Hinzufügung von Metadaten (für eigene Texterkennungs-Modelle zT. mittrainierbar, genauere Infos folgen unten)
Seite: https://readcoop.eu/de/transkribus/
EScriptorium
EScriptorium ist ein in seinen Grundzügen mit Transkribus vergleichbares Programm, das in den letzten Jahren entwickelt wurde. Ziel ist hier allerdings, möglichst viele unterschiedliche und auch unförmige Schriften zu erkennen. Auch beispielsweise Arabisch kann hier transkribiert werden.
Repository: https://gitlab.com/scripta/escriptorium/ Verwendet die freie OCR-Software Kraken (https://kraken.re/master/index.html) als Basis.
Fürs Projekt wurden keine Tests mit EScriptorium durchgeführt, da der Sammlungskatalog sehr gleichförmig und dementsprechend mit Transkribus gut erfassbar ist.
Tests mit Transkribus
Da Transkribus für die gewünschten Ziele als geeigneter erscheint, wurden einige Tests durchgeführt:
Erster Test:
Input:
5 Beispielseiten aus Cod. 14.376 (DOD_51202_00025 - DOD_51202_00029).
Ergebnis:
Line Segmentation mit Default Einstellungen ergibt ein ausreichendes Ergebnis.
Der gesamte Text der Seite wird als eine Textregion segmentiert.
Automatische Transkription mit Modell PyLaia Decoding (Model: 27457) brachte keine ausreichenden Ergebnisse.
Automatische Transkription mit Modell Acta_17 HTR+ (Modell: 26284) brachte schlechtere Ergebnisse als Modell 27457.
Zweiter Test:
Input:
5 Beispielseiten aus Cod. 14.376 (fol. IIr-IVv)
HTR+ wurde von Transkribus inzwischen eingestellt, daher (übergangsweise?) nur Modelle verfügbar, die durch PyLaia trainiert wurden.
Auswahlkriterien der Betrachteten Modelle:
- Sprache(n): Modelle mit den Sprachen Latein, Deutsch, Italienisch, ein paar Weitere als Zusatztests
- Set-Größe (/Worte)
- Ergebnisse am eigenen Material
Grundprobleme:
- t's
- einige Großbuchstaben
- Schlingen/Schlaufen von Buchstaben wie zB. "g" können teils in der Zeile darunter nur schwer vom Text getrennt werden
- ; , . und -
- Ligaturen
Die automatischen Transkriptionen mit folgenden Modellen brachten für eine Verwendung als Base Model ausreichende Ergebnisse:
- German_Kurrent_17th-18th – Modell 27457 Sprachen im verwendeten Set: Deutsch, Latein, Französisch Worte im verwendeten Set: 1 839 841 Die maximale Fehlerquote auf den betrachteten Katalog-Seiten beträgt etwa 4,75%
- Transkribus German handwriting M1 – Modell 35909 Sprachen im verwendeten Set: Deutsch Worte im verwendeten Set: 3 610 922 Die maximale Fehlerquote auf den betrachteten Katalog-Seiten beträgt etwa 4,25%
Die automatischen Transkriptionen mit folgenden Modellen brachten keine ausreichenden Ergebnisse:
- Transkribus German Kurrent – Modell 36508
- Transkribus Italian Handwriting M1 - Modell 38440
- Transkribus English Handwriting M3 – Modell 37646
- German_Kurrent_XIX-XX_M6-2 – Modell 38508
- Transkribus Dutch Handwriting M1 – Modell 38291
- German_Kurrent_XIX_pylaia – Modell 26068
- Transkribus Early Kurrent M1 – Modell 37789
Die automatischen Transkriptionen mit folgenden Modellen brachten besonders schlechte Ergebnisse:
- Pylaia_NeoLatin_Ravenstein – Modell 27542
- HIMANIS Chancery M1+ - Modell 37839
- Medieval_Scripts_M2.4 – Modell 42143
- Acta_17 PyLaia – Modell 27337
- New France (17th-18th Century) – Modell 46116
Entscheidung fürs weitere Vorgehen
Entscheidung für Transkribus mit den möglichen Base Models 27457 und 35909 wie oben dargestellt. In einem späteren Schritt im Trainingsprozess (ab Base Model Training 2) wurde sich vollständig für Base Model 35909 entschieden.