Bir web sitesini archive.org Wayback Machine'ten nasıl indirebilirim?

84

Archive.org'da belirli bir web sitesine ait tüm dosyaları almak istiyorum. Sebepler şunları içerebilir:

Asıl yazar kendi web sitesini arşivlemedi ve şu an çevrimdışı, ondan herkese açık önbellek yapmak istiyorum
Bazı web sitelerinin asıl yazarıyım ve bazı içerikleri kaybettim. Kurtarmak istiyorum
...

Bunu nasıl yaparım ?

Archive.org geri dönüş makinesinin çok özel olduğunu göz önüne alarak: web sayfası bağlantıları arşive değil, artık orada bulunmayacak bir web sayfasına işaret ediyor. JavaScript, bağlantıları güncellemek için istemci tarafı kullanılır, ancak özyinelemeli bir wget gibi bir numara işe yaramaz.

archiving web

— user36520
kaynak

14

Aynı konuda rastladım ve bir mücevher kodladım. Yüklemek için: gem install wayback_machine_downloader. Parametre olarak almak istediğiniz web sitesinin temel url'si ile wayback_machine_downloader komutunu çalıştırın: wayback_machine_downloader http://example.comDaha fazla bilgi: github.com/hartator/wayback_machine_downloader

— Hartator 10:15

3

Ruby kullanıcıları için Windows kullanıcıları (benim için win8.1 64bit) adım adım yardım, işte bunu yapmak için yaptığım şey: 1) rubyinstaller.org/downloads programını kurdum ve "rubyinstaller-2.2.3-x64 .exe "2) github.com/hartator/wayback-machine-downloader/archive/… 3 zip dosyasını indirdi 3) bilgisayarımdaki zip dosyasını aç 4)" Ruby ile komut istemini başlat "için Windows Başlat menüsünde arama yap devam)

— Erb

3

5) github.com/hartator/wayback_machine_downloader (e; .g: komutunu kopyalayın bu kopyayı "gem install wayback_machine_downloader" komut istemine kopyalayın. Enter tuşuna basın ve programı yükleyecektir ... ardından "Kullanım" yönergelerini izleyin). 6) web sitenizi yakaladıktan sonra, dosyaları C: \ Users \ YOUR kullanıcı adınız \ websitesinde bulacaksınız

— Erb

64

Bir siteyi indirmek için farklı yollar denedim ve nihayet Hartator tarafından daha önce bahsettiğim geri dönüş makinesi indiricisini buldum (bu nedenle tüm krediler lütfen, lütfen), ancak soruya yaptığı yorumu fark etmedim. Zamandan kazanmak için, wayback_machine_downloader gem'i ayrı bir cevap olarak eklemeye karar verdim.

Http://www.archiveteam.org/index.php?title=Restoring adresindeki site, archive.org adresinden indirmenin yollarını listeler:

Wayback Machine Downloader , Wayback Machine'den herhangi bir web sitesini indirmek için Ruby'deki küçük araç. Ücretsiz ve açık kaynak. Benim seçimim!
Warrick - Ana site aşağı görünüyor.
Sitenizi Wayback Machine'den indiren ve hatta Wordpress için bir eklenti ekleyen bir hizmet olan Wayback downloader . Bedava değil.

— Komik Sans
kaynak

Ayrıca, php, kaynakları indirme, bağlantıları ayarlama, vb bir "wayback downloader" yazdı: gist.github.com/divinity76/85c01de416c541578342580997fa6acf

— hanshenrik

@ComicSans, Bağladığınız sayfada bir Arşiv Takımı kapma nedir ?

— Pacerier

1

Ekim 2018, Wayback Makine Downloader hala çalışıyor.

— Bu Brezilyalı Adam

@Pacerier (Takım) anlamına gelir Arşiv Takımı tarafından üretilen WARC dosyaları (ve genellikle Internet Arşivi geri dönüş makinesine beslenir), bkz. Archive.org/details/archiveteam

— Nemo

13

Bu, birleştirilmiş bir bash shell betiğiwget kullanılarak yapılabilir .

Fikir, geri dönüş makinesinin URL özelliklerinden bazılarını kullanmaktır :

http://web.archive.org/web/*/http://domain/*tüm kaydedilmiş sayfaları http://domain/tekrarlamalı olarak listeler . Web sayfalarındaki bağlantıları tespit etmek için sezgisel taramaları indirmek ve önlemek için bir sayfa dizini oluşturmak için kullanılabilir. Her bağlantı için, ilk sürümün ve son sürümün tarihi de vardır.
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagehttp://domain/pageYYYY yılın tüm sürümlerini listeler . Bu sayfada, sürümlere özel bağlantılar bulunabilir (tam zaman damgası ile).
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagedeğiştirilmemiş sayfayı http://domain/pageverilen zaman damgasına döndürecektir . İd_ belirtecine dikkat edin .

Bunlar, belirli bir alandan her şeyi indirmek için bir komut dosyası oluşturmanın temelleridir.

— user36520
kaynak

7

Bunun yerine gerçekten API kullanmalısınız archive.org/help/wayback_api.php Wikipedia yardım sayfaları genel kullanıcılar için değil editörler içindir. Böylece, bu sayfa hem değiştirilmiş hem de bu görev için yetersiz olan grafiksel arabirime odaklanmıştır.

— Nemo

URL’yi (gibi http://web.archive.org/web/19981202230410/http://www.google.com/) alıp id_"tarih numaralarının" sonuna eklemeyi söylemek daha kolay olurdu . Sonra gibi bir şey elde edersiniz http://web.archive.org/web/19981202230410id_/http://www.google.com/.

— haykam

1

Bir python betiği burada da bulunabilir: gist.github.com/ingamedeo/…

— Amedeo Baragiola

4

Bu amaç için özel olarak tasarlanmış bir araç var, Warrick: https://code.google.com/p/warrick/

Memento protokolüne dayanıyor.

— dışarıda canlı yayın
kaynak

3

Bunu kullanabildiğim kadarıyla (Mayıs 2017'de), sadece archive.is dosyasının ne olduğunu kurtarır ve archive.org'dakileri görmezden gelir; ayrıca Google / Yahoo önbelleklerinden belge ve görüntü almaya çalışır ancak tamamen başarısız olur. Warrick, Google Code'un kapatılmasından bu yana GitHub’da birkaç kez klonlandı, belki de daha iyi sürümleri var.

— Gwyneth Llewelyn

0

Bunu kolayca yapabilirsiniz wget.

wget -rc --accept-regex '.*ROOT.*' START

ROOTWeb sitesinin kök URL'si ve STARTbaşlangıç URL'si nerededir . Örneğin:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

Web arşivinin STARTURL sarma çerçevesini atlamanız gerektiğini unutmayın . Çoğu tarayıcıda, sayfaya sağ tıklayıp "Yalnızca Bu Çerçeveyi Göster" i seçebilirsiniz.

— jcoffland
kaynak