ÖNB Labs Symposium 2024
Ein Rückblick auf das ÖNB Labs Symposium „Newspapers as Datasets“, 25. und 26. November 2024
Am 25. und 26. November 2024 fand eine neue Ausgabe des ÖNB Labs Symposiums im Oratorium der Österreichischen Nationalbibliothek statt!
Die Veranstaltung stand unter dem Motto „Newspapers as Datasets“ und umfasste vier Panels über zwei halbe Tage, die eine Vielzahl unterschiedlicher Themen behandelten, wie zum Beispiel „collections as data“, speziell historische Zeitungen als Datensets, sowie künstliche Intelligenz und ihre Anwendungen in Bibliotheken. Die Panels enthielten Vorträge von Forschenden in internationalen Projekten, aktuelle Arbeitsberichte von Wissenschaftler*innen sowie Präsentationen von Mitarbeiter*innen nationaler Bibliotheken und KI-Labors.
Unten finden Sie eine Zusammenfassung der gehaltenen Vorträge sowie Links zu den Präsentationen der Referent*innen.
Zusammenfassung der Vorträge
Willkommensgruß & Panel 1
Christoph Steindl, Leiter des ÖNB Labs Teams, hieß alle Vortragenden und Gäste in der Österreichischen Nationalbibliothek willkommen. Er stellte das übergeordnete Thema sowie die einzelnen Panels des Symposiums vor, bevor er die Moderation des ersten Panels übernahm.
Clemens Neudecker (Staatsbibliothek Berlin): Unter dem Titel „Newspapers as Data: What’s the News for AI and DH?“ blickte Clemens zunächst zehn Jahre zurück, als der Informationstag der Europeana Newspapers im Oratorium der Österreichischen Nationalbibliothek stattfand. Anschließend stellte er die neuesten Projekte der Staatsbibliothek zu Berlin vor, darunter OCR-D, Qurator und das derzeit laufende Projekt Mensch.Maschine.Kultur. Dabei hob er die anhaltende Herausforderung der Layouterkennung bei der semantischen Analyse historischer Zeitungen hervor und betonte, dass die Bibliothek mehrere GPUs einsetzt, um mithilfe von machine learning-Techniken Fortschritte in diesem Bereich zu erzielen.
Sally Chambers (The British Library & DARIAH-EU): In ihrer Präsentation „Towards Sustainable Workflows for Newspapers as Datasets: an Infrastructural Perspective“ gab Sally einen Überblick über die Infrastrukturen der Digital Humanities in Europa (z. B. SSH Open Marketplace, Common European Data Space for Cultural Heritage, DARIAH-Campus), insbesondere im Hinblick auf deren Rolle in der Forschung und Bildung rund um Zeitungen. Am Beispiel des British Library Research Repository unterschied sie zwischen zwei Arten von „Sammlungen als Daten“: einerseits solche, die von Institutionen bereitgestellt werden und möglichst viele potenzielle Nutzergruppen ansprechen sollen, und andererseits solche, die aus der Perspektive einzelner Forschender erstellt werden, um spezifizierte Datensätze zu bilden.
Sébastien Cretin (Französische Nationalbibliothek): Im Rahmen des Themas und der Herausforderung der Layouterkennung in historischen Zeitungen sprach Sébastien über „The FINLAM Project: Outlining the State of the Art in Newspaper Segmentation“. Das Akronym des Projekttitels steht für „Foundation INtegrated models for Libraries, Archives and Museums“. Ziel des Projekts ist es, ein Modell zu entwickeln, das historische Dokumente umfassend segmentieren und verstehen kann. In Zusammenarbeit zwischen der Französischen Nationalbibliothek, dem LITIS Lab und TEKLIA erstellt das Projektteam auch synthetische Zeitungen, um die Optimierung der Modellleistung zu testen. Sébastien erwähnte, dass bereits viele verschiedene Modelle ausprobiert wurden, die Situation jedoch noch nicht optimal ist. Das Team plant, bald eine quantitative Analyse der Modellleistungen durchzuführen.
Andy Stauder (Transkribus / READ co-operative): In seinem Vortrag „Before the LLM Magic Happens: Clean, Controllable, Reliable Data Extraction with End-to-End ATR Models“ zeigte Andy zunächst die Fehleranfälligkeit herkömmlicher Large Language Models (LLMs) auf. Anschließend argumentierte er für eine Vereinheitlichung von Layout- und Textanalyse (OCR), wie sie in End-to-End-ATR-Modellen (Automatic Text Recognition) umgesetzt wird. Er demonstrierte, dass diese Modelle in der Lage sind, komplexe Leserichtungen historischer Zeitungen zu bewältigen, auf Hardware mittlerer Leistungsqualität trainierbar sind und eine höhere Vorhersagbarkeit als LLMs aufweisen. Eine anhaltende Herausforderung bleibt jedoch der große Umfang von Zeitungen, der die Implementierung dieser Modelle erschwert.
Panel 2
Antoine Doucet (Université de La Rochelle): Antoine war der Projektleiter des NewsEye Projekts (2018–2022), das Einblicke in historische Zeitungen durch semantische Datenanalyse ermöglichte und eine Such-, Analyse- und Exportoberfläche bereitstellte, die auf den semantischen Annotationen basiert. Mehr als zwei Jahre nach Abschluss des Projekts blickte er darauf zurück und stellte angesichts des aktuellen Stands der Technik die Frage: „What Would NewsEye 2 Have to Achieve?“ Unter den vielen hervorgehobenen Ideen betonte er den Fokus auf NER (Named Entity Recognition), um der relativ hohen Nachfrage nach dieser Technologie in Nutzeranfragen gerecht zu werden, sowie die Bedeutung und die jüngsten Fortschritte in der zuverlässigen Artikeltrennung (z. B. durch die LIAS- und STRAS-Methoden).
Maud Ehrmann (Ecole Polytechnique Fédérale de Lausanne) & Marten Düring (Luxembourg Centre for Contemporary and Digital History): In ihrer Präsentation mit dem Titel „Impresso – Media Monitoring of the Past II. Beyond Borders: Connecting Historical Newspapers and Radio“ gaben Maud und Marten Einblicke in das Impresso 2-Projekt, das nicht nur historische Zeitungen analysiert und präsentiert, sondern auch historische Radiosendungen. Im Rahmen dieses internationalen und interdisziplinären Projekts entwickelt das Team zudem das Impresso DataLab. Dieses wird neben der Impresso WebApp den Nutzern Zugriff auf eine API, eine Python-Bibliothek, Modelle und eine Vielzahl von Jupyter Notebooks bieten, um mit angereicherten historischen Mediensammlungen zu interagieren. Das Team identifizierte auch ein interessantes Dilemma für GLAM Labs, das durch eine Umfrage aufgedeckt wurde: Es gibt eine Diskrepanz zwischen der vergleichsweise kleinen Nutzerzahl eines Labs, ihrer wahrgenommenen Bedeutung und dem Bedarf, ihre Wirkung nachzuweisen. In der Diskussion wurde zudem deutlich, dass die Nachhaltigkeit von Jupyter Notebooks ein weiterhin ungelöstes Problem im Projekt und in der breiteren Forschungsgemeinschaft darstellt.
Eva Pfanzelter (Universität Innsbruck): In ihrem Vortrag „Old Challenges, New Solutions? Changing Approaches for Historical Newspaper Research“ widmete sich Eva übergeordneten Themen der Digital Humanities, darunter insbesondere den ethischen Fragen bei der Erstellung und Nutzung von Datensätzen. Als Gegenmaßnahme gegen potenziell negative oder schädliche Ergebnisse betonte sie die Bedeutung der Zusammenarbeit während der Kuratierung von Datensätzen sowie die Wichtigkeit der Zugänglichkeit. Auf die Frage nach der Rolle von Historiker*innen bei der Bewältigung von Verzerrungen in KI-gestützter Forschung bemerkte sie, dass diese neuen Technologien oft skeptisch gegenüberstehen. Offenere Historiker*innen könnten jedoch als Vermittler fungieren und eine Brücke schlagen, um ein breiteres Publikum zu erreichen.
Christoph Steindl & Johannes Knüchel (ÖNB Labs): In der letzten Präsentation des ersten Tages blickten Christoph und Johannes auf mehr als fünf Jahre ÖNB Labs zurück. Sie stellten neue Datensets vor, berichteten über Updates bereits bestehender Datensets (Musikalische Handschriften, Plansprachen und Papyri) und präsentierten weitere neue Funktionen wie das Glossar, die 2024 implementiert wurden. Darüber hinaus gaben sie einen Ausblick auf mögliche Entwicklungen in den kommenden Monaten und Jahren.
Panel 3
Tan Lu (Königliche Bibliothek Belgien): Anhand der Sammlungen von BelgicaPress demonstrierte Tan spezifische Herausforderungen unter dem Titel „Recognizing Front Pages of Historical Newspapers: From Deep Learning to AI Explainability“. Er gab einen Überblick über das ResNeSt-Modell, das von seinem Projektteam verwendet wird, und zeigte Visualisierungen von repräsentativen Proben im dreidimensionalen Raum sowie als Gauß’sches Mischmodell. Mithilfe von Modellierung veranschaulichte er zudem, wie visuelle Konzepte aufdeckten, welche Teile jeder Seite das neuronale Netzwerk für seine Entscheidungen heranzog.
Javier de la Rosa (Norwegische Nationalbibliothek): Javier stellte das „Mímir Project“ vor, das darauf abzielt, die Auswirkungen von urheberrechtlich geschützten Materialien auf generative Large Language Models für norwegische Sprachen zu bewerten. Er erklärte, wie dieses bevorstehende Projekt durch ein Schreiben von norwegischen Rechteinhaberorganisationen an die Regierung ins Leben gerufen wurde, in dem eine Entschädigung für die Nutzung ihrer Materialien gefordert wurde. Das Ziel des Projekts ist es daher, den Wert urheberrechtlich geschützter Materialien innerhalb norwegischer Sprachmodelle wissenschaftlich zu bewerten. Eine der ersten Indikationen scheint zu sein, dass urheberrechtlich geschütztes Material die Modellleistung verbessert.
Simon Mayer (ÖNB): In seinem Vortrag mit dem Titel „Bibliotheca Eugeniana: Using Machine Learning in DH Research“ besprach Simon das kürzlich abgeschlossene Bibliotheca Eugeniana Digital-Projekt und erläuterte, wie das Projektteam maschinelles Lernen einsetzte, um Bücher aus der ÖNB-Sammlung wiederzuentdecken, die einst Prinz Eugen von Savoyen gehörten. Er stellte auch Prototypen der digitalen Ausgabe des handschriftlichen Katalogs sowie einer reichhaltigen und erkundbaren Visualisierung der Sammlung im Prunksaal vor.
Jörg Lehmann (Staatsbibliothek Berlin): Jörg begann seinen Vortrag mit dem Titel „Intermediaries, Crafted by Trustees: Datasheets for Digital Cultural Heritage“ mit der Beobachtung, dass Gedächtnisinstitutionen ein hohes Maß an öffentlichem Vertrauen genießen. Er wies darauf hin, dass machine learning-Modelle mehrere Nachteile haben, wenn sie nicht in einem spezifischen Kontext verwendet werden oder in Kombination mit Datensets, die unerwünschte soziale Vorurteile widerspiegeln. Laut ihm können Datasheets als „Vermittler“ zwischen den Bereichen des kulturellen Erbes und des maschinellen Lernens fungieren. Um deren Erstellung zu erleichtern, arbeiten Jörg und seine Kolleg*innen an einer Webanwendung, die bald nach der Sicherstellung der Finanzierung veröffentlicht werden soll.
Panel 4
Christian Lendl (Universität Wien): Christian eröffnete das Panel mit Berichten von Forschenden, indem er sein laufendes Doktoratsprojekt über „Das Wiener Salonblatt als soziales Netzwerk des habsburgischen Adels“ vorstellte. Er untersucht das soziale Beziehungsnetzwerk dieser spezifischen Personengruppe im Laufe der Zeit, wobei er die digitalisierte historische Zeitung als Grundlage nutzt. Um strukturierte Daten aus dem Zeitungskorpus zu extrahieren, verwendet er maßgeschneiderte Transkribus-Modelle. Im Rahmen seiner Untersuchungen fand er auch heraus, wie sich die Rolle der Werbung im Laufe der Zeit entwickelte.
Sarah Oberbichler (Leibniz Institute für Europäische Geschichte): In ihrem Vortrag „Large-Scale Research with Historical Newspapers: A Turning Point through Generative AI“ stellte Sarah ihr laufendes Habilitationsprojekt und die Rolle generativer KI vor. Da ihr Ziel darin besteht, eine Vielzahl internationaler und mehrsprachiger historischer Zeitungen zu analysieren, betonte sie, dass der Aufbau von Korpora nach wie vor die größte Herausforderung darstellt, bevor Modelle trainiert werden können, die die Forschung weiter unterstützen. Derzeit werden verschiedene Modelle getestet, und Sarah teilte Einblicke in ihren Arbeitsablauf, der LLMs integriert, sowie die Auswertungsergebnisse vorläufiger Tests.
Nina C. Rastinger (Österreichische Akademie der Wissenschaften): Zum Abschluss des Symposiums präsentierte Nina ihr Doktoratsprojekt in einem Vortrag mit dem Titel „Love for Lists: Rediscovering an underrated newspaper text type“. Sie untersucht eine breite Palette verschiedener deutscher historischer Zeitungen aus der Zeit von 1600 bis 1850, indem sie zunächst Listen und Listentypen identifiziert, dann textuelle Muster innerhalb dieser analysiert und schließlich eine Fallstudie zur automatischen Informationsextraktion durchführt. Ihr gemischter Methodenansatz zur Identifizierung von Listen umfasst die Wiederverwendung bestehender Annotationen, Layouterkennung, Volltextsuche und Wortwiederverwendungserkennung sowie Close Reading. Ninas vorläufige Ergebnisse zeigen, dass es eine große Vielfalt an regelmäßig veröffentlichten Listen in historischen Zeitungen gab und dass diese sowohl ein wertvolles Forschungsobjekt als auch eine wichtige Quelle darstellen.
Präsentationen
Die Präsentationen können Sie in unserem GitLab finden, siehe labs-symposium-2024. In der Tabelle unten finden Sie direkte Links zu den Slides der Vortragenden als PDF-Dateien.
Speaker | Titel | Slides | License |
---|---|---|---|
Clemens Neudecker (Staatbibliothek Berlin) | Newspapers as Data: What’s the News for AI and DH? | ||
Sally Chambers (The British Library & DARIAH-EU) | Towards Sustainable Workflows for Newspapers as Datasets: an Infrastructural Perspective | ||
Sébastien Cretin (Französische Nationalbibliothek) | The FINLAM Project: Outlining the State of the Art in Newspaper Segmentation | ||
Andy Stauder (Transkribus / READ co-operative) | Before the LLM Magic Happens: Clean, Controllable, Reliable Data Extraction with End-to-End ATR Models | ||
Maud Ehrmann (Ecole Polytechnique Fédérale de Lausanne) & Marten Düring (Luxembourg Centre for Contemporary and Digital History) | Impresso – Media Monitoring of the Past II. Beyond Borders: Connecting Historical Newspapers and Radio | ||
Eva Pfanzelter (Universität Innsbruck) | Old Challenges, New Solutions? Changing Approaches for Historical Newspaper Research | ||
ÖNB Labs Team | Presentation of New Data Sets, Review and Outlook | ||
Tan Lu (Königliche Bibliothek Belgien) | Recognizing Front Pages of Historical Newspapers: From Deep Learning to AI Explainability | ||
Javier de la Rosa (Norwegische Nationalbibliothek) | The Mímir Project: Evaluating the Impact of Copyrighted Materials on Generative Large Language Models for Norwegian Languages | ||
Simon Mayer (ÖNB) | Bibliotheca Eugeniana: Using Machine Learning in DH-Research | ||
Jörg Lehmann (Staatsbibliothek Berlin) | Intermediaries, Crafted by Trustees: Datasheets for Digital Cultural Heritage | ||
Christian Lendl (Universität Wien) | The Wiener Salonblatt as a Social Network of the Habsburg Nobility | ||
Sarah Oberbichler (Leibniz Institute für Europäische Geschichte) | Large-Scale Research with Historical Newspapers: A Turning Point through Generative AI | ||
Nina C. Rastinger (Österreichische Akademie der Wissenschaften) | Love for Lists: Rediscovering an Underrated Newspaper Text Type |
Danke!
Dank an alle unsere Vortragenden, alle Gäste sowie an CLARIAH-AT für die finanzielle Unterstützung des Events.