Tüm web sitesi nasıl arşivlenir?


Yanıtlar:


13

Yana Wayback Makinası böyle bir özelliği sağlamaz, bazı geçici çözümü buldum.

  1. İlk olarak, web sitesini wgetörn.

    wget -m https://example.com/
    
  2. Ardından curl, indirdiğiniz tüm sayfaları tek tek arşivlemek için kullanın .

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    Not: değiştirebilir .htmliçin .phpveya belirli dosya türünü içerir.


Site uzantıları kullanmıyorsa (html veya php gibi SE kurulur gibi), komutunuzu nasıl uyarlarsınız?
db

2
Tüm dosyaları dahil -name "*.html"etmek -type fiçin olarak değiştirebilirsiniz .
kenorb

Bu sorgu parametreleriyle nasıl çalışır?
Mithical

6

Küçük bir web sitesini arşivlemek istiyorsanız, Arşiv Ekibi , web sitelerini taramak isteyebileceğiniz bir IRC botu olan ArchiveBot'u korur . Arşiv Ekibi daha sonra taranan sayfaları İnternet Arşivinin Wayback Makinesine gönderecektir.


Bu inanılmaz faydalı.
Guy

1

Wayback Machine, sitenin tamamını göndermenin bir yolunu sunmaz, daha önce bulduğunuz gibi yalnızca tek bir sayfa sunar. Bu, Wayback Machine SSS'nin birkaç noktasında ele alınır :

Wayback Makinesine sayfa ekleyebilir miyim?

On https://archive.org/web Belirli bir sayfayı bir kez kaydetmek için "Kaydet Sayfa Now" özelliğini kullanabilirsiniz. Bu, URL’yi gelecekteki herhangi bir taramaya eklemez veya bu sayfadan fazlasını kaydetmez. Birden fazla sayfayı, dizini veya sitenin tamamını kaydetmez .

ve

Sitemi Wayback Machine'e nasıl dahil edebilirim?

Arşivlenmiş web verilerimizin çoğu kendi taramalarımızdan veya Alexa Internet'in taramalarından gelir. Her iki kuruluşun da "sitemi şimdi tara!" teslim süreci . Internet Archive'ın taramaları, diğer sitelerden iyi bağlanmış siteleri bulma eğilimindedir. Web sitenizi bulduğumuzdan emin olmanın en iyi yolu, çevrimiçi dizinlere dahil edildiğinden ve benzer / ilgili sitelerin size bağlantı verdiğinden emin olmaktır.


1
Bu sorunun cevabı değil. Bunu yapmanın resmi bir yolu olmadığı için görevin gerçekleştirilmesi imkansız değildir. Aslında, özyinelemeli bağlantılar ekleyen bir komut dosyasını hazırlamak oldukça kolay olmalıdır.
db

@db, kenorb'un cevabı istediğin gibi görünüyor. Bu arada, şu anda benim için daha yararlı, çünkü WaybackMachine'ın benim için bir sayfa yakalamasını istedim.
cp.engr

1

Archive.org'daki bu makale , sizin için taramayı istediğiniz sıklıkta yapacak ücretli bir hizmet de önermektedir:

  1. Bir Arşiv-It Hesabına kaydolun

Arşiv- İnternet Arşivleme tarafından sağlanan ve herhangi bir teknik uzmanlık olmadan kendi tarama projelerinizi yürütmenizi sağlayan bir abonelik hizmetidir. Bize neyin taranacağını ve ne sıklıkta taranacağını söyleyin ve taramayı yürütün ve sonuçları Wayback Machine'e koyduk.

Bu muhtemelen peşinde olduğunuz şey değil, ancak bazı işletmeler için bu hizmet yararlı olabilir. Aksi takdirde ücretsiz olan archive.org'u finanse etmeye yardımcı olduğunu düşünüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.