|
|
Nach dem Export des Handschriftlichen Katalogs aus Transkribus, wurde dieser für die Weiterverarbeitung [Aufbereitet](./Aufbereitung-des-TEI-XML-Exports.md). Teil dieser Aufbereitung war auch auch das Zusammenfassen von Zeilen in jeweils einen Katalogeintrag beinhaltende Einheiten.
|
|
|
|
|
|
Die so gewonnenen Katalogeinträge sollen nun mit den aus ALMA extrahierten Einträgen miteinander verbunden werden. Hierbei werden verschiedene Matching-Strategien angewandt, die in Folge genauer erläutert werden.
|
|
|
|
|
|
[TOC]
|
|
|
|
|
|
# Generelles Vorgehen
|
|
|
|
|
|
## Daten-Vorbereitung
|
|
|
|
|
|
Die relevanten ALMA-Daten (Titel, Ort, Datum, Autor, Drucker) werrden in einen String zusammengeführt. Vor dem Matching werden außerdem sowohl für die ALMA-Daten als auch für die Einträge des Katalogs eindeutige IDs vergeben, die jeweils zusätzlich zum Eintrag zur Identifizierung angeführt sind.
|
|
|
|
|
|
## Der Matching-Prozess
|
|
|
|
|
|
Die Matching-Prozesse gehen immer von einer der beiden Eintragsformen aus, entweder den Einträgen der handschriftlichen Kataloge, oder den Einträgen des ALMA-Auszugs . Mithilfe von Fuzzy-String Search werden die Einträge miteinander verglichen und die fünf besten Ergebnisse dieses Vergleichs für einen folgenden manuellen Abgleich in einer Tabelle bereitgestellt. Der manuelle Abgleich stellt hierbei die Qualtät des Abgleichs sicher, da einerseits möglich ist, dass ein anderer Vorschlag als der an erster Stelle der Richtige ist, andererseits aber auch mehrere oder gar keine Vorschläge passend sein können.
|
|
|
|
|
|
Findet sich ein Match, so wird die zugehörige ID ins Feld "control" eingetragen. Bei mehreren Übereinstimmung werden diese durch ein Komma getrennt (vgl. auch "Spezialfälle" weiter unten). Gibt es keine Übereinstimmung, so bleibt das entsprechende Feld frei.
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/digitale-edition/matching_1.png">
|
|
|
<figcaption>Abbildung 1: Spalte A: Metadaten aus ALMA; Spalten C, E, G, I, K: Metadaten aus handschriftlichem Katalog – die fünf besten Vorschläge.</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Ein Beispiel für einen solchen manuellen Prozess stellt Abbildung 1 dar. Hier passt der erste Vorschlag: Veröffentlichungsort und -datum (Caen 1605) sowie Autor (Vauquelin) stimmen überein. Der Titel ist ähnlich genug („poesies“). Die ID des ersten Matches „3521“ wird dementsprechend in das Feld „control“ eingetragen.
|
|
|
|
|
|
## Häufiger vorkommende Spezialfälle
|
|
|
|
|
|
### Mehrere korrekte Matches
|
|
|
|
|
|
Da dasselbe Werk möglicherweise öfters in verschiedenen Registern des handschriftlichen Katalogs verzeichnet wurde, ist es auch möglich das zwei oder mehrere Vorschläge stimmen. In diesem Fall kann auch die Nummer, die hinter dem „n“ handschriftlich notiert wurde als Anhaltspunkt dienen. Ist sie dieselbe kann man davon ausgehen, dass sie sich auf dasselbe Werk bezieht.
|
|
|
|
|
|
Im untenstehenden Fall ist sowohl der erste als auch der zweite Vorschlag ein Match. Die n-Nummer ist ebenfalls dieselbe.
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/digitale-edition/matching_4.png">
|
|
|
<figcaption>Abbildung 2: Hinweis auf ein Signaturensystem bei Prinz Eugen (ob dies zu seiner Zeit oder später in der Hofbibliothek entstanden ist, ist jedoch unklar).</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
### Unsicherer Match
|
|
|
|
|
|
Manchmal ist es nicht möglich, einen Match sicher anzugeben. Unsichere Matches wurden im Matchingprozess mit "?" markiert und werden je nach Zeitkapazität in mehr oder weniger Detail in einem zweiten Schritt gelöst.
|
|
|
|
|
|
Besonders oft finden sich folgende Fälle:
|
|
|
- Abweichendes Datum +- 1 Jahr: Unklar, ob andere Ausgabe, oder Abweichung zwischen Druck- und Veröffentlichkeitsdatum oä. Hier können tiefergehende Recherchen helfen, was hinsichtlich der im Projekt verfügbaren Zeit allerdings nur im Einzelfall geleistet werden kann
|
|
|
- Abweichendes Datum an einer Stelle: Hierbei kann es sich um eine andere Ausgabe, aber auch einen Transkriptionsfehler handeln. Hier hilft eine Kontrolle im Handschriftlichen Katalog, was jedoch auch nur im Einzelfall geleistet werden kann
|
|
|
- Zu wenig Information: Vor Allem im handschriftlichen Katalog können Einträge sehr kurz gehalten, oder im Spezialfall in einem übergeordneten Eintrag "versteckt" sein. Hierbei kann ein Blick auf die davorliegenden Einträge oder der handschriftliche Katalog fallweise, aber nicht immer, weiterhelfen.
|
|
|
|
|
|
Ein besonders häufiges Beispiel für den letztgenannten Fall wird durch den Handschriftlichen Katalog aufgeworfen:
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/digitale-edition/matching_2.png">
|
|
|
<img src="../uploads/digitale-edition/matching_3.png">
|
|
|
<figcaption>Abbildung 3: Ein typischer Eintrag mit "Ejusdem" an der Stelle des Autors (oben) und entsprechende Auflistung der Stelle im handschriftlichen Katalog (unten).</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
Bei einer längeren Auflistung von Werken desselben Autors werden diese Werke im handschriftlichen Katalog nur mehr mit dem Vermerk „von demselben“ in der korrespondierenden Sprache geführt, meist „ejusdem“, „del medesimo“ oder „le meme/du meme“. In diesem Fall muss in der Excel-Tabelle des handschriftlichen Katalogs, in der sich die Einträge noch in der ursprünglichen Reihenfolge befinden, nachgeschaut werden um sichergehen zu können welcher Autor gemeint ist.
|
|
|
|
|
|
Im in Abbildung 3 dargestellten Fall passt der zweite Vorschlag (Erscheinungsort und -datum stimmen überein). Um eruieren zu können, ob das Werk tatsächlich von Terenz (Publius Terentius Afer) stammt, sucht man mittels ID den passenden Eintrag in der Liste und geht nach oben bis der Autor genannt wird.
|
|
|
|
|
|
### Digitalisat aufrufen zur Überprüfung eines Matches
|
|
|
|
|
|
Für weitere Anhaltpunkte um einen Vorschlag als Match zu deklarieren, ist es auch hilfreich das Werk im ÖNB-Katalog zu suchen und das Digitalisat aufzurufen. Dort finden sich auf der Titelseite häufig weitere Informationen, die die Entscheidung erleichtern können.
|
|
|
|
|
|
Im untenstehenden Beispiel sind zwar Erscheinungsort und -Jahr ident, aber die Titel enthalten doch eher unterschiedliche Wörter. Auf der Titelseite des Digitalisats kann man weitere Informationen entnehmen, die ebenfalls in den Metadaten des handschriftlichen Katalogs vorkommen. Zum Beispiel den Drucker Barezzo Barezzi sowie den Komponisten Camillo Scaligeri della Fratta (ein Pseudonym von Adriano Banchieri, wie er im Katalog der ÖNB angegeben wurde).
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/digitale-edition/matching_5.png">
|
|
|
<figcaption>Abbildung 4: Der Eintrag im handschriftlichen Katalog beinhaltet in diesem Fall einiges an Metadaten, welche im Digitalisat des Buches dann gefunden werden können.</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
<figure>
|
|
|
<img src="../uploads/digitale-edition/matching_6.png" height="300">
|
|
|
<figcaption>Abbildung 5: Titelseite des zu Abbildung 4 passenden Digitalisates.</figcaption>
|
|
|
</figure>
|
|
|
|
|
|
## Ausgefallenes
|
|
|
|
|
|
Ausgefallene Beispiele werden auf der [Kuriositäten-Seite](./Kuriosa.md) exemplarisch dokumentiert.
|
|
|
|
|
|
# ALMA-Auszug als Matching Input
|
|
|
|
|
|
Als erster Schritt wurde der ALMA-Auszug als Input verwendet, der dem Handschriftlichen Katalog entgegengestellt wurde. Hierfür wurde sich auf die im Mitteloval des Prunksaals befindlichen Signaturen (BE.*) beschränkt. Für jede dieser Signaturen wurden wie oben beschrieben die besten Ergebnisse bereitgestellt und manuell nachgeprüft.
|
|
|
|
|
|
# Handschriftlicher Katalog als Matching Input
|
|
|
|
|
|
In einem nächsten Schritt soll dieser Prozess umgekehrt erfolgen.
|
|
|
...
|
|
|
|
|
|
# Weitere Schritte
|
|
|
|
|
|
- Abgleich der gematchten Signaturen mit den Ergebnissen der Bilderkennung |
|
|
\ No newline at end of file |