Bir web sitesini archive.org Wayback Machine'ten nasıl indirebilirim?


84

Archive.org'da belirli bir web sitesine ait tüm dosyaları almak istiyorum. Sebepler şunları içerebilir:

  • Asıl yazar kendi web sitesini arşivlemedi ve şu an çevrimdışı, ondan herkese açık önbellek yapmak istiyorum
  • Bazı web sitelerinin asıl yazarıyım ve bazı içerikleri kaybettim. Kurtarmak istiyorum
  • ...

Bunu nasıl yaparım ?

Archive.org geri dönüş makinesinin çok özel olduğunu göz önüne alarak: web sayfası bağlantıları arşive değil, artık orada bulunmayacak bir web sayfasına işaret ediyor. JavaScript, bağlantıları güncellemek için istemci tarafı kullanılır, ancak özyinelemeli bir wget gibi bir numara işe yaramaz.


14
Aynı konuda rastladım ve bir mücevher kodladım. Yüklemek için: gem install wayback_machine_downloader. Parametre olarak almak istediğiniz web sitesinin temel url'si ile wayback_machine_downloader komutunu çalıştırın: wayback_machine_downloader http://example.comDaha fazla bilgi: github.com/hartator/wayback_machine_downloader
Hartator 10:15

3
Ruby kullanıcıları için Windows kullanıcıları (benim için win8.1 64bit) adım adım yardım, işte bunu yapmak için yaptığım şey: 1) rubyinstaller.org/downloads programını kurdum ve "rubyinstaller-2.2.3-x64 .exe "2) github.com/hartator/wayback-machine-downloader/archive/… 3 zip dosyasını indirdi 3) bilgisayarımdaki zip dosyasını 4)" Ruby ile komut istemini başlat "için Windows Başlat menüsünde arama yap devam)
Erb

3
5) github.com/hartator/wayback_machine_downloader (e; .g: komutunu kopyalayın bu kopyayı "gem install wayback_machine_downloader" komut istemine kopyalayın. Enter tuşuna basın ve programı yükleyecektir ... ardından "Kullanım" yönergelerini izleyin). 6) web sitenizi yakaladıktan sonra, dosyaları C: \ Users \ YOUR kullanıcı adınız \ websitesinde bulacaksınız
Erb

Yanıtlar:


64

Bir siteyi indirmek için farklı yollar denedim ve nihayet Hartator tarafından daha önce bahsettiğim geri dönüş makinesi indiricisini buldum (bu nedenle tüm krediler lütfen, lütfen), ancak soruya yaptığı yorumu fark etmedim. Zamandan kazanmak için, wayback_machine_downloader gem'i ayrı bir cevap olarak eklemeye karar verdim.

Http://www.archiveteam.org/index.php?title=Restoring adresindeki site, archive.org adresinden indirmenin yollarını listeler:


Ayrıca, php, kaynakları indirme, bağlantıları ayarlama, vb bir "wayback downloader" yazdı: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, Bağladığınız sayfada bir Arşiv Takımı kapma nedir ?
Pacerier

1
Ekim 2018, Wayback Makine Downloader hala çalışıyor.
Bu Brezilyalı Adam

@Pacerier (Takım) anlamına gelir Arşiv Takımı tarafından üretilen WARC dosyaları (ve genellikle Internet Arşivi geri dönüş makinesine beslenir), bkz. Archive.org/details/archiveteam
Nemo

13

Bu, birleştirilmiş bir bash shell betiğiwget kullanılarak yapılabilir .

Fikir, geri dönüş makinesinin URL özelliklerinden bazılarını kullanmaktır :

  • http://web.archive.org/web/*/http://domain/*tüm kaydedilmiş sayfaları http://domain/tekrarlamalı olarak listeler . Web sayfalarındaki bağlantıları tespit etmek için sezgisel taramaları indirmek ve önlemek için bir sayfa dizini oluşturmak için kullanılabilir. Her bağlantı için, ilk sürümün ve son sürümün tarihi de vardır.
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagehttp://domain/pageYYYY yılın tüm sürümlerini listeler . Bu sayfada, sürümlere özel bağlantılar bulunabilir (tam zaman damgası ile).
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagedeğiştirilmemiş sayfayı http://domain/pageverilen zaman damgasına döndürecektir . İd_ belirtecine dikkat edin .

Bunlar, belirli bir alandan her şeyi indirmek için bir komut dosyası oluşturmanın temelleridir.


7
Bunun yerine gerçekten API kullanmalısınız archive.org/help/wayback_api.php Wikipedia yardım sayfaları genel kullanıcılar için değil editörler içindir. Böylece, bu sayfa hem değiştirilmiş hem de bu görev için yetersiz olan grafiksel arabirime odaklanmıştır.
Nemo

URL’yi (gibi http://web.archive.org/web/19981202230410/http://www.google.com/) alıp id_"tarih numaralarının" sonuna eklemeyi söylemek daha kolay olurdu . Sonra gibi bir şey elde edersiniz http://web.archive.org/web/19981202230410id_/http://www.google.com/.
haykam

1
Bir python betiği burada da bulunabilir: gist.github.com/ingamedeo/…
Amedeo Baragiola

4

Bu amaç için özel olarak tasarlanmış bir araç var, Warrick: https://code.google.com/p/warrick/

Memento protokolüne dayanıyor.


3
Bunu kullanabildiğim kadarıyla (Mayıs 2017'de), sadece archive.is dosyasının ne olduğunu kurtarır ve archive.org'dakileri görmezden gelir; ayrıca Google / Yahoo önbelleklerinden belge ve görüntü almaya çalışır ancak tamamen başarısız olur. Warrick, Google Code'un kapatılmasından bu yana GitHub’da birkaç kez klonlandı, belki de daha iyi sürümleri var.
Gwyneth Llewelyn

0

Bunu kolayca yapabilirsiniz wget.

wget -rc --accept-regex '.*ROOT.*' START

ROOTWeb sitesinin kök URL'si ve STARTbaşlangıç ​​URL'si nerededir . Örneğin:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Web arşivinin STARTURL sarma çerçevesini atlamanız gerektiğini unutmayın . Çoğu tarayıcıda, sayfaya sağ tıklayıp "Yalnızca Bu Çerçeveyi Göster" i seçebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.