Metadatenanreicherung von Reiseberichten

Das interdisziplinäre FWF/DFG-finanzierte Projekt "Travelogues: Perceptions of the Other 1500-1876" analysiert historische Reiseberichte aus den Beständen der Österreichischen Nationalbibliothek durch Kombination historischer und computerwissenschaftlicher Methoden. Für die Analyse von Intertextualität zwischen Reiseberichten und die Analyse von Konzepten des "Fremden" haben wir einen Korpus von mehr als 3.000 Reiseberichten zusammengestellt, u.a. vermittels eine trainierten Gattungs-Classifiers zur Erkennung von Reiseberichten. Bibliografische Daten bilden eine wesentliche Grundlage des Projektes. Wir haben uns entschieden, diese über die Bibliothekssoftware (Online-Katalog) zu edieren und zu verwalten, um sie so auch öffentlich zugänglich zu machen. Bring-your-project hat wesentlich zur Verbesserung unserer Metadaten beigetragen durch die Entwicklung eines ALMA-Extraktors und durch ein automatisiertes Matching mit dem bibliografischen Verzeichnis VD17.

Das VD17 (Verzeichnis der im deutschen Sprachraum erschienenen Drucke des 17. Jahrhunderts) ist seit seiner Begründung im Jahr 1996 die umfassendste Referenzdatenbank für deutsche Barockdrucke. Wie der 2010 erschienene Sammelband „Schmelze des barocken Eisbergs?“ zeigte, bietet sie Ausgangsmaterial für eine Fülle an bibliographischen Forschungen basierend auf quantitativen Methoden. Seit 2019 steht NutzerInnen zudem eine SRU-Schnittstelle zu Verfügung, vermittels derer sämtliche Elemente des Ausgangsformats (PICAXML) und deren Kombinationen abgefragt und als XML exportiert werden können. Diese Schnittstelle bietet somit auch die Möglichkeit für automatisierten Abgleich mit Beständen anderer Bibliotheken. Für das Projekt Travelogues wurde ein automatisierter Abgleich von deutschsprachigen Reiseberichten aus dem VD17 mit dem gesamten Katalog der Österreichischen Nationalbibliothek durchgeführt. Damit soll wenn nicht eindeutig so zumindest annäherungsweise abgeschätzt werden können, wieviele deutschsprachige Reiseberichte im VD17 verzeichnet, jedoch nicht Teil des Travelogues-Korpus sind. Zugleich konnten über diesen Abgleich weitere Titel als Reiseberichte identifiziert und dem Korpus hinzugefügt werden. Auf Grund der oft fehlerhaften und inkonsistenten Informationen des historischen Katalogs der Österreichischen Nationalbibliothek musste der Abgleich großzügig angelegt werden (underfitting) und bedurfte daher einer manuellen Evaluation von Kandidaten. Hierzu könnte der Einsatz von Algorithmen der Ähnlichkeitsdedektion weitere Verbesserungen in der Präzision des Recalls ergeben.

Zwei Seiten eines Reiseberichts
Titelblatt und Frontispiz zu einem Reisebericht des 17. Jahrhunderts (http://data.onb.ac.at/rec/AC05902884)

Methode

Nutzer erhalten Metadaten zu Beständen der Österreichischen Nationalbibliothek meist zuerst als Ergebnis einer Suchanfrage in Primo/Quicksearch, der graphischen Nutzeroberfläche des Bibliothekskatalogs. Eine Suchanfrage nach bestimmten Begriffen und über bestimmte Parameter liefert einen einzelnen Datensatz oder eine Liste von Datensätzen, wobei Metadaten aus einem einzelnen Datensatz ausschließlich für Literaturverwaltungsprogramme (Bibtex, RIS, Refworks, Endnote, Easybib), in einem Mail oder als kompakter Ausdruck bezogen werden können und das auch nur unter erheblicher Informationsreduktion. Ergebnislisten können aus Primo/Quicksearch nicht exportiert werden.Über die SRU- und OAI-Schnittstellen der Österreichischen Nationalbibliothek, die als Datenset via den ONB Labs angeboten werden, stehen andererseits Zugänge zu den Metadaten des Katalogs zu Verfügung. Diese Möglichkeiten sind wohl – obgleich ausreichend dokumentiert – für zahlreiche Nutzer technisch zu anspruchsvoll und daher selten genutzt. Zudem wäre eine besser sichtbare Anbindung an den Katalog ein Desiderat. Für ein Vielzahl an NutzerInnen, nicht zuletzt wissenschaftlichen NutzerInnen, ist eine tabellarische Ausgabe von Daten und Datensätzen bevorzugtes niederschwelliges Werkzeug, um Daten zu verwalten und einen raschen Überblick über Datenbestände zu erhalten. Die British Library etwa bietet neben genuinen Formaten wie RDF/XML, JSON-LD oder MARCXML für spezifische Nutzergruppen auch CSV-Extraktione als „Researcher Format“ im Rahmen ihrer Collection Metadata Strategy an. Für die Österreichische Nationalbibliothek soll nun eine Möglichkeit zur Extraktion in tabellarischer Form basierend auf einem Pythonskript die Lücke schließen. Zudem bietet diese Extraktion auch BibliothekarInnen ein hilfreiches Werkzeug für den Vergleich von Daten und damit für Qaulitätskontrolle. Die Bibliothekssoftware ALMA bietet zwar für BibliothekarInnen, welche über keine Berechtigung für das Modul Analytics verfügen, eine voreingestellte Excel-Extraktion, diese kann jedoch nicht individuell angepasst werden. Die neue niederschwellige Extraktion kann je nach Bedürfnissen durch Änderungen im zugrunde liegenden Mapping angepasst werden.

Mag. Martin Krickl, Wissenschaftlicher Mitarbeiter bei Travelogues
martin.krickl@onb.ac.at

Tools

BeschreibungLink

Alma Data Extractor

Tool zum Extrahieren von Metadaten aus dem ALMA-Bibliothekskatalog und zur tabellenorientierten Weiterverarbeitung der Daten

GitLab Link

Projektdaten

BeschreibungLink

Travelogues Repositorien

Projektseite mit veröffentlichten veröffentlichten Materialien des Travelogues-Projekts.

GitHub Link