Webarchiv Österreich

Seit 1. März 2009 archiviert das Webarchiv Österreich den „österreichischen Webspace“ (siehe https://webarchiv.onb.ac.at). Die Datensammlung erfolgt in regelmäßigen Domain, thematischen und Event Crawls. Darin enthalten sind die gesamte .at-Domain inklusive .ac.at und .gv.at, die Domains .wien und .tirol, sowie ausgewählte Webseiten mit Österreich-Bezug. Das Datenset beinhaltet Metadaten zu ausgewählten Domains, die in thematischen Kollektionen zusammengefasst sind. Weiters können mit der Webarchiv-API Suchen nach URL und im (partiellen) Volltext durchgeführt werden.

Das Webarchiv Österreich beinhaltet über 2 Mio. Webseiten, die angebotenen Metadaten stehen unter einer Creative Commons Zero Lizenz (CC0).

Tools & Experimente

Jupyter Notebooks

Beispiele zur Benutzung der Webarchiv-API in Python

Daten

Zur Zeit stehen folgende Metadaten zur Verfügung:

	Beschreibung	Link
Selektive Crawls	Datengrundlage der Webarchiv-Kollektion „Laufende Crawls“	/data/selective.json
Eventcrawls	Datengrundlage der Webarchiv-Kollektion „Event Crawls“	/data/events.json
Andere Webarchive	Link zu anderen Waybackmachines – queryfähig	/data/otherwebarchives.json
Statistik	Anzahl aktueller Objekte im Webarchiv	/data/objectcount.json

Code

Schnittstellen und Programmmodule

	Beschreibung	Link
Beschreibung der API	Schnittstellenbeschreibung mit Swagger – swagger.json	Swagger Tool
Python Bindings	Python-Modul für die Webarchiv-API	webarchiv.py

Tutorials

Instruktive Jupyter Notebooks

	Beschreibung	Link
Notebook Selective	Extraktion aller Seeds eines selektiven Crawls	sample1.ipynb
Notebook Wayback Search	Suche aller Captures einer URL und Verarbeitung des Ergebnisses	sample2.ipynb
Notebook Text Search	Suche im Volltext des Webarchivs und Verarbeitung der Metadaten	sample3.ipynb
Notebook Combined Search	Waybacksuche aller URLs eines selektiven Crawls	sample4.ipynb