I want to find a specific term in all saved pages.
Let's start a WebarchivSession
import webarchiv
API_KEY = 'wGdLmWMlaM2V6j73V9zS0KHqBgfG67vJ'
# If you want to allow us to count you as a unique visitor, please set allow_tracking to True
s = webarchiv.WebarchivSession(API_KEY, allow_tracking=False)
We want to find the first occurrence of the term Westbalkanroute in the webarchive.
r = s.fulltext_search('Westbalkanroute')
r.json()
{'@context': 'https://webarchiv.onb.ac.at/contexts/fulltextsearchresult.jsonld', 'requestid': '', 'message': '', 'returncode': 0, 'total': 10, 'type': 1, 'took': 1299, 'version': '0.1.0', 'searchstring': 'westbalkanroute', 'grouping': '', 'subtype': 1, 'hits': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151026192026/http://diepresse.com/home/politik/eu/index.do', 'id': '6f8f23cc122d81337a2b7fcaa49c15c6', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'diepresse.com', 'total': 60, 'value': 'http://diepresse.com/home/politik/eu/index.do', 'timestamp': '20151026192026', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151011172442/http://www.bmeia.gv.at', 'id': 'be06ee190cdc65bb88d99a28b4f7ebe5', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'bmeia.gv.at', 'total': 40, 'value': 'http://www.bmeia.gv.at', 'timestamp': '20151011172442', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151108183014/http://www.vorarlberg.spoe.at/index.php', 'id': '01c1b572b8102b5c098ef3fb3662544b', 'snapshotavailable': 0, 'svgavailable': 1, 'domain': 'spoe.at', 'total': 25, 'value': 'http://www.vorarlberg.spoe.at/index.php', 'timestamp': '20151108183014', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151125175511/http://www.derstandard.at', 'id': 'f5eb359c95bdabb8bb2f18010fae30b3', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'derstandard.at', 'total': 22, 'value': 'http://www.derstandard.at', 'timestamp': '20151125175511', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20160320183921/http://www.wienerzeitung.at/nachrichten/oesterreich/politik/', 'id': 'a20eaded8637f675d474bfa050aacc59', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'wienerzeitung.at', 'total': 18, 'value': 'http://www.wienerzeitung.at/nachrichten/oesterreich/politik/', 'timestamp': '20160320183921', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170117185625/http://www.bmi.gv.at', 'id': 'a51185f51069c4b5427984c0d89ba824', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'bmi.gv.at', 'total': 11, 'value': 'http://www.bmi.gv.at', 'timestamp': '20170117185625', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170305185947/http://steiermark.orf.at', 'id': 'f69b2f50eafce9e3a7aef0fa4cb172e0', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'orf.at', 'total': 10, 'value': 'http://steiermark.orf.at', 'timestamp': '20170305185947', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20160321195421/http://www.vol.at/news/politik', 'id': '798b43237a20b8b6aebf535420011d6e', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'vol.at', 'total': 9, 'value': 'http://www.vol.at/news/politik', 'timestamp': '20160321195421', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170221190941/http://jachwe.wordpress.com', 'id': 'ae3fa41d96d17bf7262c3128ab14e884', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'wordpress.com', 'total': 6, 'value': 'http://jachwe.wordpress.com', 'timestamp': '20170221190941', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151115182507/http://www.politikeronline.at', 'id': 'a0a9b7e9429f227ca8448fb87a20dfe3', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'politikeronline.at', 'total': 4, 'value': 'http://www.politikeronline.at', 'timestamp': '20151115182507', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}]}
Let's use jsonpath to make collecting values from the result JSON easier.
from jsonpath_ng import parse
def jp(http_response, query_string):
compiled = parse(query_string)
json = http_response.json()
return [match.value for match in compiled.find(json)]
all_domains = lambda r: jp(r, '$.hits[*].domain')
number_hits = lambda r: jp(r, '$.hits[*].total')
number_hits(r)
[60, 40, 25, 22, 18, 11, 10, 9, 6, 4]
all_domains(r)
['diepresse.com', 'bmeia.gv.at', 'spoe.at', 'derstandard.at', 'wienerzeitung.at', 'bmi.gv.at', 'orf.at', 'vol.at', 'wordpress.com', 'politikeronline.at']
We get one hit per domain. If we want to find the first occurrence, we have to follow the rabbit down the hole:
The last search gave us all domains. We need to get all URLs for each of these domains, and then all capture dates for every URL, and select the first one.
Steps:
s.fulltext_search()
s.fulltext_search_within_domain()
s.fulltext_search_within_url()
Let's execute the single steps with a single domain and a single URL respectively, then automate the search over all domains and URLs.
We'll use the first returned domain diepresse.com
presse_r = s.fulltext_search_within_domain('Westbalkanroute', domain='diepresse.com')
presse_r.json()
{'@context': 'https://webarchiv.onb.ac.at/contexts/fulltextsearchresult.jsonld', 'requestid': '', 'message': '', 'returncode': 0, 'total': 3, 'type': 1, 'took': 1785, 'version': '0.1.0', 'searchstring': 'Westbalkanroute', 'grouping': 'diepresse.com', 'subtype': 2, 'hits': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170523182542/http://diepresse.com', 'id': '3ef624abfe4a831fcf92dd084b60e221', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'http://diepresse.com', 'total': 52, 'value': 'http://diepresse.com', 'timestamp': '20170523182542', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170210180036/http://www.diepresse.com', 'id': '5bc09002b8151a0bc1b72507ecb2b885', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'http://www.diepresse.com', 'total': 7, 'value': 'http://www.diepresse.com', 'timestamp': '20170210180036', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151026192026/http://diepresse.com/home/politik/eu/index.do', 'id': '6f8f23cc122d81337a2b7fcaa49c15c6', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': 'http://diepresse.com/home/politik/eu/index.do', 'total': 1, 'value': 'http://diepresse.com/home/politik/eu/index.do', 'timestamp': '20151026192026', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}]}
We'll use the first returned URL ('seed') http://diepresse.com
diepresse_r = s.fulltext_search_within_url('Westbalkanroute', url='http://diepresse.com', pagesize=52)
diepresse_r.json()
{'@context': 'https://webarchiv.onb.ac.at/contexts/fulltextsearchresult.jsonld', 'requestid': '', 'message': '', 'returncode': 0, 'total': 52, 'type': 1, 'took': 1103, 'version': '0.1.0', 'searchstring': 'Westbalkanroute', 'grouping': 'http://diepresse.com', 'subtype': 3, 'hits': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151026182143/http://diepresse.com', 'id': 'cd5b004aa4e87d9b45e07c1a25315460', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20151026182143', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151027031242/http://diepresse.com', 'id': '917ca1de057bfb18524756f9b11b3a9f', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20151027031242', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151119183028/http://diepresse.com', 'id': '59090f47ac0c8f4e0a5859669c36388c', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20151119183028', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20151216144418/http://diepresse.com', 'id': 'a82320bb154076295fe3b3f9a1609471', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20151216144418', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20160923170917/http://diepresse.com', 'id': '8a9e74c0bb1b36d4ea11f3d51bf2cf68', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20160923170917', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170210180036/http://diepresse.com', 'id': 'a1c510c19cb96e6717053a565de8dba8', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20170210180036', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170210185606/http://diepresse.com', 'id': '35f47bb670dd41f734fa277051b4a4e4', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20170210185606', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170523170736/http://diepresse.com', 'id': '8a92dab60ace3d913d205277c2bc4bda', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20170523170736', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170523181411/http://diepresse.com', 'id': '875d3d08b9c767b9d06725ee4bffad5c', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20170523181411', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170523182542/http://diepresse.com', 'id': '3ef624abfe4a831fcf92dd084b60e221', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20170523182542', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20170523183123/http://diepresse.com', 'id': '5776e809c36ddca29f8bd89c489358f7', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20170523183123', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002155240/http://diepresse.com', 'id': 'e4db42e444f4bfa11866da8992fbb21e', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002155240', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002160616/http://diepresse.com', 'id': 'eb6a1c5fe8de15093ee335a0bac8852e', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002160616', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002174537/http://diepresse.com', 'id': 'b333cd6e2abc8f3b65018b3ea168af5d', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002174537', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002175606/http://diepresse.com', 'id': '2333bc82d1e28535ef9c5dff404bd762', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002175606', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002175625/http://diepresse.com', 'id': 'd1d802cb6cee93908a50987d058d3ab4', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002175625', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002184049/http://diepresse.com', 'id': '63083fe3d6d8890219b8688460f97fef', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002184049', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002185104/http://diepresse.com', 'id': 'c89c9a0b2c2a0cf41d6b7034074072e6', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002185104', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171002212111/http://diepresse.com', 'id': 'e5ffd9af786f8a17f4898e70eab5b7ff', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171002212111', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003033941/http://diepresse.com', 'id': '6c8961059555319d141faf1807ad8ef5', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003033941', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003070039/http://diepresse.com', 'id': 'e8fd4b360fe9aeb1c2851a83a10af824', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003070039', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003084602/http://diepresse.com', 'id': '6981685e20c142e9f675125b313bb078', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003084602', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003092853/http://diepresse.com', 'id': 'abce25d94557ab05352f8a710dc2e010', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003092853', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003115811/http://diepresse.com', 'id': '3e2db855ee3e8e2be700440df8ae6867', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003115811', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003123112/http://diepresse.com', 'id': '65c58a98824b3ab983c50ac3e0214d5a', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003123112', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003132945/http://diepresse.com', 'id': '3008c7cba008bf78f97f953308972473', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003132945', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003164701/http://diepresse.com', 'id': '62fb975397349f5b35a82e431e06bafc', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003164701', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003165723/http://diepresse.com', 'id': '49b97ab42aa2fe1b740321ed6e975b47', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003165723', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003180924/http://diepresse.com', 'id': '80a6a6008d6232b43c1d7a37fc6eb829', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003180924', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003181543/http://diepresse.com', 'id': '26bfdfb84b42aa6bdcfa812a4a8db23b', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003181543', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171003181627/http://diepresse.com', 'id': '5e17e7e5707a9cbe7f300ce8f4cfe027', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171003181627', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171004164632/http://diepresse.com', 'id': '5c6a8f435652a50a5642be28a1ca2493', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171004164632', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171004165546/http://diepresse.com', 'id': '7d37634d0fe34bdf7f314c862599461d', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171004165546', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171004165548/http://diepresse.com', 'id': 'f05eb43b37217a355a4639222523da56', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171004165548', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171004181003/http://diepresse.com', 'id': '41cfb3dc400932d0679787c6cff87a55', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171004181003', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171004181807/http://diepresse.com', 'id': '71ca86ca0c4b2c51ab893181bae8e4e4', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171004181807', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171004190613/http://diepresse.com', 'id': 'f1771c5c8c96ffab6ef5d5de4e011c39', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171004190613', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171005002251/http://diepresse.com', 'id': 'b9353c4ac3c18d87ca4be9c29c113dcd', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171005002251', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171005013456/http://diepresse.com', 'id': 'ff5f72c8a1f5e54814d5c3aabc1ae9a2', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171005013456', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013152553/http://diepresse.com', 'id': '6a2c998d606c326d571e2954e316677f', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013152553', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013173505/http://diepresse.com', 'id': '15e06c8aef7eff6b240292884a23b3e7', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013173505', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013174308/http://diepresse.com', 'id': '0f87d81c5794388bac78b09a71c22995', 'snapshotavailable': 0, 'svgavailable': 1, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013174308', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013175058/http://diepresse.com', 'id': '32d0f3336d26c92b056f3d5bf1b80e5c', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013175058', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013183341/http://diepresse.com', 'id': '084a00afa920b3c934a82e0e28dda120', 'snapshotavailable': 0, 'svgavailable': 1, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013183341', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013184235/http://diepresse.com', 'id': '110c1c117ea56390ce9d5b517abe6281', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013184235', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013184257/http://diepresse.com', 'id': 'baedfd42ad79096539548f47c38767da', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013184257', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171013190102/http://diepresse.com', 'id': '659c2f61ea7d6362c70c75d44d1e84a4', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171013190102', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171014174350/http://diepresse.com', 'id': '9677f6b32b361b495147682c729f2c10', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171014174350', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171014174853/http://diepresse.com', 'id': '198aabe1082aa0c7840b80f3fb1ef19a', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171014174853', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171014175103/http://diepresse.com', 'id': '7e5e8b94739546b63ebf0c82a92ae175', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171014175103', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171014175508/http://diepresse.com', 'id': '5ef3e90835730b74f4d23e200c0cc691', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171014175508', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}, {'@context': 'https://webarchiv.onb.ac.at/contexts/eshit.jsonld', '@id': 'http://wayback/web/20171014175545/http://diepresse.com', 'id': '29cd0c0df2d41b3e40bdca6962fdd349', 'snapshotavailable': 0, 'svgavailable': 0, 'domain': None, 'total': 0, 'value': 'http://diepresse.com', 'timestamp': '20171014175545', 'restriction': 1, 'locked': 1, 'highlights': [{'@context': 'https://webarchiv.onb.ac.at/contexts/eshighlight.jsonld', 'typ': '', 'highlightedtext': 'Der Inhalt ist gesperrt und kann nicht angezeigt werden'}]}], 'page': 1, 'pagesize': 52}
Ok, in timestamp
are all the capture dates for this URL.
The date format is YYYYMMDDHHmmss
, no idea what timezone TODO
Collect them all:
all_captures = lambda r: jp(r, '$.hits[*].timestamp')
cap = all_captures(diepresse_r)
cap[:5]
['20151026182143', '20151027031242', '20151119183028', '20151216144418', '20160923170917']
They sort neatly alphabetically
min(cap)
'20151026182143'
all_domains = lambda r: jp(r, '$.hits[*].domain')
all_urls = lambda r: jp(r, '$.hits[*].value')
all_captures = lambda r: jp(r, '$.hits[*].timestamp')
number_hits = lambda r: jp(r, '$.hits[*].total')
def search_deep_for_first_captures(query_string):
ft_r = s.fulltext_search(query_string)
first_hit_for_url = {}
for domain in all_domains(ft_r):
ft_dom_r = s.fulltext_search_within_domain(query_string, domain=domain)
urls = all_urls(ft_dom_r)
hits = number_hits(ft_dom_r)
for url, pagesize in zip(urls, hits):
ft_url_r = s.fulltext_search_within_url(query_string, url=url, pagesize=pagesize)
captures = all_captures(ft_url_r)
min_capture = min(captures)
first_hit_for_url[url] = min_capture
return min(first_hit_for_url.values()), first_hit_for_url
search_deep_for_first_captures('Westbalkanroute')
('20150911190447', {'http://diepresse.com': '20151026182143', 'http://www.diepresse.com': '20151026182143', 'http://diepresse.com/home/politik/eu/index.do': '20151026192026', 'http://www.bmeia.gv.at': '20151010185208', 'http://www.vorarlberg.spoe.at/index.php': '20151022181252', 'http://derstandard.at': '20150911190447', 'http://www.derstandard.at': '20150911190447', 'http://www.wienerzeitung.at': '20151028214142', 'http://www.wienerzeitung.at/': '20151028214142', 'http://www.wienerzeitung.at/nachrichten/oesterreich/politik/': '20160313183203', 'http://www.bmi.gv.at': '20170110140316', 'http://orf.at/': '20160313195759', 'http://steiermark.orf.at': '20170304194626', 'http://www.orf.at': '20160313195759', 'http://news.orf.at': '20160313195751', 'http://news.orf.at/': '20160313195751', 'http://salzburg.orf.at': '20160418181246', 'http://salzburg.orf.at/': '20160418181246', 'http://www.vol.at/news/politik': '20151026182823', 'http://www.vol.at': '20160320181655', 'http://www.vol.at/': '20160320181655', 'http://jachwe.wordpress.com': '20170220181340', 'https://jachwe.wordpress.com': '20170220181340', 'http://www.politikeronline.at': '20151115182507'})