Jupyter Notebooks
Beispiele zur Benutzung der Webarchiv-API in Python
Seit 1. März 2009 archiviert das Webarchiv Österreich den „österreichischen Webspace“ (siehe https://webarchiv.onb.ac.at). Die Datensammlung erfolgt in regelmäßigen Domain, thematischen und Event Crawls. Darin enthalten sind die gesamte .at-Domain inklusive .ac.at und .gv.at, die Domains .wien und .tirol, sowie ausgewählte Webseiten mit Österreich-Bezug. Das Datenset beinhaltet Metadaten zu ausgewählten Domains, die in thematischen Kollektionen zusammengefasst sind. Weiters können mit der Webarchiv-API Suchen nach URL und im (partiellen) Volltext durchgeführt werden.
Das Webarchiv Österreich beinhaltet über 2 Mio. Webseiten, die angebotenen Metadaten stehen unter einer Creative Commons Zero Lizenz (CC0).
Zur Zeit stehen folgende Metadaten zur Verfügung:
Beschreibung | Link | |
---|---|---|
Selektive Crawls | Datengrundlage der Webarchiv-Kollektion „Laufende Crawls“ | |
Eventcrawls | Datengrundlage der Webarchiv-Kollektion „Event Crawls“ | |
Andere Webarchive | Link zu anderen Waybackmachines – queryfähig | |
Statistik | Anzahl aktueller Objekte im Webarchiv |
Schnittstellen und Programmmodule
Beschreibung | Link | |
---|---|---|
Beschreibung der API | Schnittstellenbeschreibung mit Swagger – swagger.json | |
Python Bindings | Python-Modul für die Webarchiv-API |
Instruktive Jupyter Notebooks
Beschreibung | Link | |
---|---|---|
Notebook Selective | Extraktion aller Seeds eines selektiven Crawls | |
Notebook Wayback Search | Suche aller Captures einer URL und Verarbeitung des Ergebnisses | |
Notebook Text Search | Suche im Volltext des Webarchivs und Verarbeitung der Metadaten | |
Notebook Combined Search | Waybacksuche aller URLs eines selektiven Crawls |