Annolyzer Release

Es freut uns sehr, über die erfolgreiche Integration der NewsEye Demonstrator Plattform in die ÖNB Labs zu berichten! Die Plattform ist ein Werkzeug, welches entwickelt wurde um „vereinfachten Zugriff auf historische Zeitschriften für eine große Palette von Benutzern“ zur Verfügung zu stellen. Sie wurde innerhalb des NewsEye Projekts entwickelt. Da sie nur mit der Teilmenge des NewsEye Korpus, welche auch in ANNO enthalten ist, betrieben wird, haben wir unsere Version der Plattform Annolyzer getauft. Klicken Sie hier, um direkt auf den Annolyzer zuzugreifen. Beachten Sie dabei, dass eine vorherige Anmeldung auf der ÖNB Labs Webseite nötig ist.

In diesem Beitrag möchten wir eine Übersicht über (einen Teil der) Ergebnisse aus dem NewsEye Projekt, sowie unsere Arbeiten diese nachhaltig in die ÖNB Labs Infrastruktur zu integrieren, geben. Zusätzlich möchten wir einen Plan für zukünftige Entwicklungen vorstellen, von dem beide Projekte gleichermaßen profitieren können.

Inhalt:

  1. Was ist die NewsEye Demonstrator Plattform?
  2. Wieso haben wir die Plattform in die ÖNB Labs integriert?
  3. Kernfunktionen der Plattform
  4. Zukünftige Ausrichtung und Entwicklung

1. Was ist die NewsEye Demonstrator Plattform?

Historische Zeitschriften im NewsEye Projekt

Das NewsEye Projekt (englischer Titel: „NewsEye: A Digital Investigator for Historical Newspapers“) war ein durch das EU-Förderprogramm Horizon 2020 gefördertes Kooperationsprojekt zwischen mehreren europäischen Universitäten (Universität La Rochelle, Universität Helsinki, Universität Innsbruck, Universität Rostock, Universität Paul-Valéry Montpellier und Universität Wien) und Nationalbibliotheken (Österreichische Nationalbibliothek, Finnische Nationalbibliothek und Französische Nationalbibliothek). Das Ziel war es, während der Projektlaufzeit (von Mai 2018 bis Januar 2022), Werkzeuge und Methoden zu entwickeln, welche „die Art, wie europäisches digitales Kulturerbe (er-)forscht, zugegriffen, verwendet und analysiert wird, verändern sollen“.

Im Projekt standen ausgewählte Ausgaben historischer Zeitschriften in vier Sprachen (finnisch, französisch, deutsch und schwedisch) aus dem späten 19. und frühen 20. Jahrhundert im Fokus. Das Hauptziel war die Entwicklung von Werkzeugen und Methoden für eine effektive Exploration und Nutzbarmachung der ausgiebigen Ressourcen mittels neuer Technologien und Big-Data-Ansätzen. Schlussendlich soll es den Benutzerinnen und Benutzern ermöglicht werden, auf den enormen Korpus der digitalisierten historischen Zeitschriften zuzugreifen, sowie dessen Inhalt zu analysieren und zu verwenden.

Das Problem der Forscherinnen und Forscher

Die Teams der Forscherinnen und Forscher im Projekt begannen mit gescannten Bildern und mittels OCR (optical character recognition, eng. für optische Buchstabenerkennung) erzeugten Textdateien der Zeitschriftenausgaben im Korpus des Projekts. Sie produzierten daraus (beispielsweise) durch Artikelsegmentierung und Eigennamenerkennung große Mengen an Daten, welche dann für anschließende Forschungsfragen, Visualisierungen sowie Veröffentlichungen zugänglich gemacht werden sollten. Aufgrund der Heterogenität und enormen Größe des produzierten Datensets stellte dies ein beachtliches Problem dar.

Die Lösung: die NewsEye Demonstrator Plattform

Die NewsEye Demonstrator Plattform ist eine webbasierte Anwendung, die zur Lösung des obigen Problems entworfen und entwickelt wurde. Sie verbindet die Daten aus dem Projekt mit den Originalbildern und erlaubt es, diese auf interaktive Weise anzusehen und darin zu blättern. Weiterhin ist der komplette Inhalt der Plattform durchsuchbar und wird sehr strukturiert angeboten über die Möglichkeit, eigene Kollektionen zu erstellen und anzureichern.

2. Wieso haben wir die Plattform in die ÖNB Labs integriert?

Abschluss des NewsEye Projekts

Da das NewsEye Projekt mit Beginn des Jahres 2022 abgeschlossen wurde, haben wir mit unseren Kollegen aus dem Projekt besprochen, auf welche Weise es möglich sein könnte die Ergebnisse (inklusive Forschungsdaten und Software) nachhaltig zu den jeweiligen Projektpartnern zu übertragen.

In der Diskussion stellte sich heraus, dass die aus den österreichischen Zeitungen extrahierten Daten (Artikelsegmentierung, enthaltener Text, erkannte Eigennamen) und die Demonstrator Plattform selbst gute Kandidaten für einen Transfer wären, denn die ÖNB kann die gescannten Bilder der vier österreichischen Zeitschriften (Neue Freie Presse, Illustrierte Kronen Zeitung, Innsbrucker Nachrichten und Arbeiter Zeitung) im Projekt aus urheberrechtlichen Gründen nicht veröffentlichen.

Thematische Überschneidung mit den Interessen der ÖNB Labs

Weiterhin passen Themen in Relation zu Layoutanalyse, OCR und linguistischer Datenverarbeitung (eng. natural language processing – NLP) sehr gut zur allgemeinen Strategie der ÖNB Labs. Da wir stets danach streben unser Wissen und unsere Fähigkeiten in diese Richtung zu vertiefen, ist die Integration eines Teils dieses Projekts eine willkommene Erweiterung unserer Toolbox.

3. Kernfunktionen der Plattform

Suche im (digitalisierten) Text aller inkludierter Ausgaben

Die zentrale und prominenteste Funktion der Plattform ist die Möglichkeit, Suchanfragen auf dem kompletten Textkorpus durchzuführen. Der Solr-Index im Backend enthält den Text für jeden segmentierten Artikel sowie die erkannten Eigennamen, welche wiederum mit einem Wikidata Eintrag verknüpft sind falls möglich. Dies bedeutet, dass die Benutzerin oder der Benutzer komplexe Suchanfragen abschicken kann, die dann vom Query Parser interpretiert und ausgeführt werden. Siehe die Solr Query Documentation für weitere Informationen.

Eine beispielhafte Solr-Suchanfrage, welche die Plattform nach dem Wort Donauschifffahrt durchsucht, den Begriff Wien ausschließt und die Suchergebnisse auf den Zeitraum von 1900 bis 1939 einschränkt, lautet:

/search?f[date_created_dtsi][from]=1900-01-30&f[date_created_dtsi][to]=1939-06-16&q=Donauschifffahrt+NOT+Wien

Die Ergebnisse können nach Relevanz (voreingestellt) oder nach Veröffentlichungsdatum (ab- oder ansteigend) sortiert werden und es wird ein Vorschaubild sowie ein Textausschnitt, der den gefundenen Term enthält, angezeigt. Der Nutzer oder die Nutzerin kann dann durch Klick auf einen Artikel zur Zeitung gelangen aus welcher der Artikel stammt und in dieser blättern.

Artikelseparation und manuelles Erstellen von zusammengesetzten Artikeln

Im Projekt wurden die gescannten Bilder mithilfe von Machine Learning Pipelines in einzelne Zeitungsartikel segmentiert. Im Laufe der Layoutanalyse wurden die Spalten einer Zeitungsseite in kleinere Einheiten aufgespalten und ein rechteckiger Hüllkörper (bounding box) um jeden segmentierten Artikel, zusammen mit dem enthaltenen Text, gespeichert. Dies bedeutete jedoch oft eine Segmentierung einer Spalte auf Absatzebene, was zu einer zu starken Fragmentierung führt, denn schließlich kann ein Artikel aus mehreren Absätzen bestehen. Daher wurde ein Feature zum Erstellen von zusammengesetzten Artikeln implementiert, wodurch die Benutzer in der Lage sind, manuell kleinere Segmente zu einer Gruppe zu kombinieren und so einen gesamten Artikel (samt Text) zu erhalten.

Collections erstellen aus Ausgaben, Artikeln und zusammengesetzten Artikeln

Zum Speichern und einfacheren Zugriff auf Suchergebnisse ist es möglich, einzelne Artikel, zusammengesetzte Artikel sowie ganze Ausgaben zu einer Collection hinzuzufügen. Diese den Benutzern zugeordneten Collectionen sind anfänglich privat und können dann von der Benutzerin bzw. dem Benutzer selbst für alle anderen Benutzer veröffentlicht werden. Diese Collections (oder Datensets) können entweder manuell oder mittels Suchabfrage zusammengestellt werden.

Semantische Verbindung von erkannten Eigennamen im Text

Jedes durchsuchbare Dokument im Solr-Index ist mit erkannten Eigennamen angereichert. Diese werden neben den Suchergebnissen, beim Browsen von Datensets oder bei der Betrachtung eines (zusammengesetzten) Artikels, oder einer Ausgabe, angezeigt. In einer Nachbearbeitung wurden diese Eigennamen mit einem korrespondierenden Eintrag (falls möglich) in der wikidata Datenbank verbunden.

4. Zukünftige Ausrichtung und Entwicklung

Prototyp-Stadium der Plattform

Bitte beachten Sie, dass sich der jetzige Release des Annolyzers in einem Prototyp-Stadium befindet und sich die angebotenen Funktionen bei zukünftigen Releases ändern können. Wir werden in Kollaboration mit unseren Projektpartnern an der Universität La Rochelle weitere Features der Plattform erweitern und entwickeln. Auf diese Weise können wir von den zukünftigen Entwicklungen jeweils gegenseitig profitieren.

Zusätzliche Features und Verbesserungen

Unser derzeitiger Plan beinhaltet, weitere Ausgaben historischer Zeitungen aus dem ANNO-Korpus in den Annolyzer zu integrieren und für diese ebenso eine Artikelsegmentierung sowie Eigennamenerkennung durchzuführen. Weiterhin soll der Funktionsumfang bei den Collections erweitert werden, so dass die Benutzer darin suchen können und weitere Datenanalysen möglich sein werden.

Der Quellcode für die Plattform ist öffentlich verfügbar auf unserer GitLab Plattform und wir freuen uns über Beiträge aus der Labs Community. Bitte schreiben Sie uns ein E-Mail wenn Sie Fragen oder Feedback haben!