Das Projekt „Bibliotheca Eugeniana Digital“ (BED) ist ein von der Österreichischen Akademie der Wissenschaften im Rahmen des „go!digital 3.0“-Programms gefördertes Kooperationsprojekt zwischen der Österreichischen Nationalbibliothek und der Universität für Weiterbildung Krems. Die Laufzeit des Projekts beträgt zwei Jahre, von November 2022 bis November 2024.
Ziel des Projekts Bibliotheca Eugeniana Digital ist die digitale Rekonstruktion und visuelle Darstellung von Prinz Eugens Büchersammlung (UNESCO „Memory of Austria“), eine der berühmtesten Sammlungen der Barockzeit. Seit 1738 war die Sammlung Teil der habsburgischen Hofbibliothek, heute der Österreichischen Nationalbibliothek (ÖNB). Jedes Jahr wird tausenden Besucher*innen vermittelt, dass die Sammlung im Mitteloval des Prunksaals der ÖNB bewundert werden könne. Doch das ist nicht korrekt. Bis heute konnten weder die exakte Zusammensetzung, noch ihr Umfang, noch die Standorte der gedruckten Bücher in den Sammlungen der ÖNB analysiert werden, da dieses Unterfangen zu umfangreich und komplex für traditionelle Herangehensweisen war. Die Digitalisierung von Quellen in Kombination mit neuen digitalen Methoden ermöglicht neue Zugänge für die Erschließung großer Kultursammlungen wie der Bibliotheca Eugeniana.
Das Projekt wird Werkzeuge und Methoden aus den Digitalen Geisteswissenschaften und den Data Sciences für eine systematische digitale Rekonstruktion und visuelle Exploration dieser Bibliothek nutzen, um ihre Zusammensetzung und Geschichte anhand unterschiedlicher Quellen zu untersuchen.
Die meisten Bücher der Bibliotheca Eugeniana wurden im Rahmen des Projekts „Austrian Books Online“ (ABO) digitalisiert. Der Großteil der gebundenen Bücher der Bibliotheca Eugeniana wurde in einheitlicher Manier auf Vorder- und Rückdendeckel mit dem Wappen von Prinz Eugen (s. Abbildung 1 weiter unten) versehen. Auf diesen (hier als Supralibros-Einbände bezeichneten) Einbänden werden im Projekt mittels Maschinellem Lernen (ML) visuelle Merkmale erkannt. Zusätzlich werden der historische handschriftliche Katalog der Eugeniana sowie Archivalien zur Transformation dieser Bibliothek im 19. Jahrhundert mittels ML für Handwritten Text Recognition (HTR) digital erschlossen und in der Infrastruktur für Digitale Editionen der ÖNB publiziert.
Sämtliche Daten werden mit den Metadaten aus dem öffentlichen Katalog der ÖNB zusammengeführt. Titel aus der Digitalen Edition und Volltexte aus ABO werden abermals mittels ML und Natural Language Processing (NLP) Algorithmen in Sachgruppen klassifiziert. Die Zuschreibung zu Sachgruppen wird neue Einsichten in die interne Struktur der Bibliothek und deren Korrelation mit dem Farbsystem der Supralibros-Einbände ermöglichen.
Die Universität für Weiterbildung Krems (UWK) wird aus den vielschichtigen historischen Bestandsdaten multiple koordinierte Visualisierungen entwickeln, mit denen die Struktur, Transformation und Verortung der Bibliotheca Eugeniana-Sammlung analysiert und erforscht werden kann. Zur öffentlichen Kommunikation der Projektergebnisse werden komplementäre narrative Visualisierungen entwickelt. BED wird die Ergebnisse in unterschiedlichen Formaten für Expert*innen und eine allgemeine Öffentlichkeit veröffentlichen. Alle im Rahmen des Projekts erstellten Daten werden über die ÖNB Labs zugänglich gemacht und gemäß FAIR-Prinzipien mit europäischen Forschungsinfrastrukturen geteilt. Als Kooperation einer Kulturerbe Einrichtung mit einer Forschungseinrichtung trägt BED zur Strategie DH Austria 2021 bei, indem es den Wissenstransfer zwischen beiden Sektoren fördert.
Um so viele Informationen wie möglich für die Rekonstruktion der Büchersammlung zu erhalten, werden verschiedene Ansätze kombiniert:
In diesem Schritt werden ML-Klassifikationsmodelle von Bildmerkmalen für die Identifizierung von Provenienzmarkern verwendet. In einer Pilotstudie der ÖNB wurde diese Methode unter Verwendung von CNN-Modellen zur binären Klassifizierung von Eugeniana Supralibros aus dem ABO-Korpus der ÖNB erfolgreich eingesetzt. Im BED-Projekt wird diese Methode überarbeitet und erweitert, indem verschiedene Arten von CNN-Modellen und Netzwerkkonfigurationen (z.B. Netzwerktiefen etc.) verglichen werden. Es wird ein zweistufiges Modell verfolgt, bei dem im ersten Schritt erkannt wird, ob der Provenienzmarker, das Supralibros, vorhanden ist, und ein Bildausschnitt dieses als Rückgabewert zurückgegeben wird.
In einem zweiten Schritt wird der Inhalt dieses Ausschnitts in einen binären Klassifikator eingespeist, der die optischen Informationen bewahrt, die sonst durch die Skalierung des Bildes verloren gehen. Darüber hinaus wird besonderes Augenmerk darauf gelegt, das Trainingskorpus für diese Modelle in (sowohl in Bezug auf die Größe als auch die Qualität) angemessener Weise aufzubauen, sodass die verschiedenen Arten von Supralibros strukturell sichtbar gemacht werden. Auf diese Weise wird es möglich sein, ein Multi-Klassifikator-Modell zu erstellen. Für richtig positive Zuschreibungen werden die Beschreibungen in den frei zugänglichen Katalog der ÖNB integriert. Dieser Ansatz ist auf die im ABO-Korpus digital verfügbaren Supralibros beschränkt und wird daher mit einem zweiten Ansatz kombiniert:
Mithilfe eines HTR-Modells zur Texterkennung mit Transkribus sollen die Informationen des an der ÖNB digitalisierten fünfbändigen handschriftlichen historischen Sammlungskatalogs extrahiert werden. Für die (halb-)automatische Verschlagwortung von Autoren und Publikationsorten werden im Anschluss NLP-Methoden (z.B. Named-Entity-Recognition) eingesetzt. Die Einträge werden auf Basis eines bereits für die digitale Edition eines anderen historischen Bibliothekskatalogs entwickelten Schemas der ÖNB auf TEI-XML-Elemente abgebildet. Die XML-Dateien und Seitenabbildungen werden in Form einer digitalen Edition in der nachhaltigen Infrastruktur der ÖNB für digitale Editionen (edition.onb.ac.at) veröffentlicht. Die digitale Edition wird Indizes mit bibliographischen Angaben zu allen Titeln, Personen und Publikationsorten enthalten.
Um diejenigen Bücher zu identifizieren, die sich noch heute in der ÖNB befinden, wird die Such-API des digitalen Katalogs der ÖNB genutzt, mit der, unter Zuhilfenahme von Fuzzy-String-Matching, die Titel, Orte und Erscheinungsjahre des historischen Katalogs mit dem des modernen Katalogs verglichen werden. Darüber hinaus werden Titel und verfügbare Volltexte mit Hilfe des ANNIF-Algorithmus für die Fachklassifikation in Fachkategorien geclustert, um tiefere Einblicke in die Klassifikation und die Fachgebiete der Bibliothek zu erhalten. Die Ergebnisse der Fachklassifikation werden den Fachgebieten im modernen Bibliothekskatalog zugeordnet und später in die digitale Ausgabe des historischen Katalogs integriert, um einen zusätzlichen Fachindex zu erstellen. Die Beschreibungen der identifizierten Exemplare mit Supralibros-Einbänden werden automatisch auf der Grundlage der Ergebnisse der Bildklassifikation erstellt und bei Bedarf manuell ergänzt. Die digitale Edition wird mit Beschreibungen der identifizierten Objekte, Verlinkungen von benannten Entitäten sowie Verweisen auf den Open-Access-Katalog der ÖNB angereichert. Dieser Ansatz wurde bereits getestet.
Die Metadaten zu den bibliografischen Einträgen werden als LOD-Set veröffentlicht, das dem DINI-Schema für RDF-Darstellungen bibliografischer Ressourcen entspricht und mit dem DARIAH-Sammlungsbeschreibungsschema abgestimmt ist.
Datenvisualisierungen sollen die Exploration, Repräsentation und öffentliche Kommunikation der Sammlung ermöglichen. Mit ihrer Hilfe können die Eugeniana-Sammlung, ihre Metadaten und deren Qualitätsbewertung aus verschiedenen analytischen Perspektiven dargestellt werden. Auf diese Weise sollen sie das Lesen und Erkunden der Sammlung aus der Ferne visuell unterstützen, und so erleichtern, Fragen der Sammlungszusammensetzung und Provenienz zu analysieren und relevante Muster und Informationen für weitere Analysen und Close Reading zu identifizieren. Die Entwicklung der Visualisierung folgt einem nutzerzentrierten, iterativen Daten-Nutzer-Aufgaben-Ansatz, innerhalb dessen kollaborativ und iterativ die relevantesten Optionen der visuellen Analyse und Exploration in Sitzungen mit den Zielnutzern definieren und die verfügbaren Daten untersuchen werden. Diese Analyse wird die Grundlage für die Definition von Nutzeranforderungen für die anschließende Gestaltung und Implementierung relevanter visueller Perspektiven und möglicher Interaktionen sein. Um sicherzustellen, dass die Visualisierungen die beabsichtigten Aufgaben ausreichend unterstützen, wird in einer kleinen Nutzerstudie die Interaktion mit den neuartigen Visualisierungen beobachtet, und die Gestaltung auf der Grundlage der Evaluierungsergebnisse angepasst.
Darüber hinaus wird ein visueller Storytelling-Ansatz angewandt, um die Geschichte und Herkunft der Eugeniana auf ansprechende Weise der Öffentlichkeit zu vermitteln. Das Storyboard wird mit (interaktiven) Visualisierungen angereichert und vom UWK-Team in Form einer webbasierten Geschichte umgesetzt. Die Schnittstelle wird mit Zielnutzern aus der breiten Öffentlichkeit getestet und auf der Grundlage dieser Bewertungsergebnisse angepasst. Die visualisierte Geschichte über die Provenienz der Bibliotheca Eugeniana wird ein wichtiges Ergebnis sein, um die öffentliche Kommunikation der Projektergebnisse zu unterstützen.
Ein Prototyp erlaubt bereits eine erste Exploration der historischen Bestände Prinz Eugens durch eine Visualisierung des Prunksaals.
Bei Fragen oder Anregungen bitten wir Sie um eine Kontaktaufnahme unter bed-project@onb.ac.at.
Auf Anfrage können Informationen zu den im Projekt erzeugten Daten im Datenmanagementplan eingesehen werden.