Yolu wayback
aşağıdaki gibi biçimlendirilir URL'ler şunlardır:
http://$BASEURL/$TIMESTAMP/$TARGET
İşte BASEURL
genellikle http://web.archive.org/web
(genellikle tek BASEURL olup olmadığından emin değilim diyorum)
TARGET
açıklayıcıdır (sizin durumunuzda http://nature.com
veya benzer bir URL'de)
TIMESTAMP
olduğu YYYYmmddHHMMss
yakalama (UTC olarak) yapıldığı:
YYYY
: Yıl
mm
: Ay (2 basamak - 01 ila 12)
dd
: Ayın günü (2 haneli - 01 ila 31)
HH
: Saat (2 haneli - 00-23)
MM
: Dakika (2 haneli - 00-59)
ss
: İkinci (2 haneli - 00-59)
Var olmayan bir yakalama süresi istemeniz durumunda, geri dönüş makinesi, gelecekte veya geçmişte olsun, bu URL için en yakın yakalamaya yönlendirir.
URL kümesini almak için curl -I
(HTTP HEAD
) kullanarak her günlük URL'yi almak için bu özelliği kullanabilirsiniz :
BASEURL='http://web.archive.org/web'
TARGET="SET_THIS"
START=1325419200 # Jan 1 2012 12:00:00 UTC (Noon)
END=1356998400 # Tue Jan 1 00:00:00 UTC 2013
if uname -s |grep -q 'Darwin' ; then
DATECMD="date -u '+%Y%m%d%H%M%S' -r "
elif uname -s |grep -q 'Linux'; then
DATECMD="date -u +%Y%m%d%H%M%S -d @"
fi
while [[ $START -lt $END ]]; do
TIMESTAMP=$(${DATECMD}$START)
REDIRECT="$(curl -sI "$BASEURL/$TIMESTAMP/$TARGET" |awk '/^Location/ {print $2}')"
if [[ -z "$REDIRECT" ]]; then
echo "$BASEURL/$TIMESTAMP/$TARGET"
else
echo $REDIRECT
fi
START=$((START + 86400)) # add 24 hours
done
Bu, 2012'nin her gününde öğlene en yakın URL'leri alır. Yalnızca kopyaları kaldırın ve sayfaları indirin.
Not: Yukarıdaki Komut dosyası REDIRECT
, gelecekte 1 günden fazla bir URL olması durumunda ileri atlamak için büyük ölçüde geliştirilebilir , ancak daha sonra döndürülen URL'nin yapısını çözüp START
doğru tarih değerine ayarlanmasını gerektirir .