Webarchiv Österreich

Seit 1. März 2009 archiviert das Webarchiv Österreich den „österreichischen Webspace“ (siehe https://webarchiv.onb.ac.at). Die Datensammlung erfolgt in regelmäßigen Domain, thematischen und Event Crawls. Darin enthalten sind die gesamte .at-Domain inklusive .ac.at und .gv.at, die Domains .wien und .tirol, sowie ausgewählte Webseiten mit Österreich-Bezug. Das Datenset beinhaltet Metadaten zu ausgewählten Domains, die in thematischen Kollektionen zusammengefasst sind. Weiters können mit der Webarchiv-API Suchen nach URL und im (partiellen) Volltext durchgeführt werden.

Das Webarchiv Österreich beinhaltet über 2 Mio. Webseiten, die angebotenen Metadaten stehen unter einer Creative Commons Zero Lizenz (CC0).

Tools & Experimente

Daten

Zur Zeit stehen folgende Metadaten zur Verfügung:

BeschreibungLink

Selektive Crawls

Datengrundlage der Webarchiv-Kollektion „Laufende Crawls“

/data/selective.json

Eventcrawls

Datengrundlage der Webarchiv-Kollektion „Event Crawls“

/data/events.json

Andere Webarchive

Link zu anderen Waybackmachines – queryfähig

/data/otherwebarchives.json

Statistik

Anzahl aktueller Objekte im Webarchiv

/data/objectcount.json

Code

Schnittstellen und Programmmodule

BeschreibungLink

Beschreibung der API

Schnittstellenbeschreibung mit Swagger – swagger.json

Swagger Tool

Python Bindings

Python-Modul für die Webarchiv-API

webarchiv.py

Tutorials

Instruktive Jupyter Notebooks

BeschreibungLink

Notebook Selective

Extraktion aller Seeds eines selektiven Crawls

sample1.ipynb

Notebook Wayback Search

Suche aller Captures einer URL und Verarbeitung des Ergebnisses

sample2.ipynb

Notebook Text Search

Suche im Volltext des Webarchivs und Verarbeitung der Metadaten

sample3.ipynb

Notebook Combined Search

Waybacksuche aller URLs eines selektiven Crawls

sample4.ipynb