Basierend auf der Übersicht (siehe [Übersicht der Wappentypen](Wappensupralibros-und-Machine-Learning/%C3%9Cbersicht-der-Wappentypen)) wurden iterativ Datensets für Training und Validierung zusammengestellt: Zuerst [BE_GT.csv](https://labs.onb.ac.at/gitlab/bed/bed-general/-/blob/main/Groundtruth/BE_GT.csv), dann [BE_GT_v2.csv](https://labs.onb.ac.at/gitlab/bed/bed-general/-/blob/main/Groundtruth/BE_GT_v2.csv) und schließlich [BE_GT_v3.csv](https://labs.onb.ac.at/gitlab/bed/bed-general/-/blob/main/Groundtruth/BE_GT_v3.csv). Das letzte ist die aktuellste und umfangreichste Datenset. Es enthält Barcodes und den Wappentyp (falls vorhanden) auf den ersten fünf Seiten eines Digitalisats. Dabei werden die 4 folgenden Kategorien unterschieden, die Zahl in Klammern bezeichnet die Anzahl der Bilder in der jeweiligen Kategorie:
Basierend auf der Übersicht (siehe [Übersicht der Wappentypen](Wappensupralibros-und-Machine-Learning/%C3%9Cbersicht-der-Wappentypen)) wurden iterativ Datensets für Training und Validierung zusammengestellt: Zuerst [BE_GT.csv](https://labs.onb.ac.at/gitlab/bed/bed-general/-/blob/main/Groundtruth/BE_GT.csv), dann [BE_GT_v2.csv](https://labs.onb.ac.at/gitlab/bed/bed-general/-/blob/main/Groundtruth/BE_GT_v2.csv) und schließlich [BE_GT_v3.csv](https://labs.onb.ac.at/gitlab/bed/bed-general/-/blob/main/Groundtruth/BE_GT_v3.csv). Das letzte ist das aktuellste und umfangreichste Datenset. Es enthält Barcodes und den Wappentyp (falls vorhanden) auf den ersten fünf Seiten eines Digitalisats. Dabei werden die 4 folgenden Kategorien unterschieden, die Zahl in Klammern bezeichnet die Anzahl der Bilder in der jeweiligen Kategorie:
- Wappentyp A (200)
- Wappentyp B (234)
- Wappentyp C (200)
...
...
@@ -31,14 +31,14 @@ Es wurden verschiedene Modelle getestet:
Für das Training der Modelle wählen wir eine Aufteilung von 80% bzw. 20% in Training- und Testset mit jeweils 1214 bzw. 304 Bildern. Siehe Abbildung 2 für einen Auszug aus den augmentierten Trainingsdaten.
<figcaption>Abbildung 2: Auszug der Trainingsdaten aus dem Groundtruth Datenset. Zur Verbesserung der Allgemeinheit der Trainingsdaten wurden diese über die Funktion AutoAugment zufällig verändert.</figcaption>
</figure>
Das ResNext liefert die besten Ergebnisse (100% Genauigkeit auf dem Testset) und ist dazu auch noch relativ schlank. Es wird daher für das Ausrollen auf das ABO-Korpus ausgewählt. Siehe Abbildung 3 für einen Auszug der Testdaten kombiniert mit Vorhersagen des Modells.
Das ResNext liefert die besten Ergebnisse (100% Genauigkeit auf dem Testset) und ist dazu auch noch relativ schlank (mit 88 MB Speicherbedarf für die Gewichte). Es wird daher für das Ausrollen auf das ABO-Korpus ausgewählt. Siehe Abbildung 3 für einen Auszug der Testdaten kombiniert mit Vorhersagen des Modells.
<figcaption>Abbildung 3: Auszug der Testdaten aus dem Groundtruth Datenset zusammen mit der Vorhersage des Classifiers. Im Gegensatz zum Trainingsdatenset sind die Bilder im Testdatenset nicht augmentiert.</figcaption>