İnternet Arşivi üzerindeki kontrol sadece “Disallow /” değil mi?


13

İnternet Arşivinin bir sitede ne arşivlediğini kontrol etmek için herhangi bir mekanizma var mı? Ekleyebileceğim tüm sayfalara izin vermem gerektiğini biliyorum :

User-agent: ia_archiver
Disallow: /
  1. Bot'a sitemi ayda bir kez veya yılda bir kez taramalarını istediğimi söyleyebilir miyim?

  2. Alınan varlıklar nedeniyle doğru şekilde arşivlenmeyen / arşivlenmeyen bir sitem / sayfalar var. İnternet Arşivi botuna siteyi kapmak için hangi varlıklara ihtiyaç duyduğunu söylemenin bir yolu var mı?


Bunun yanıtıyla da çok ilgileniyorum. +1 :)
Tim Post

Yanıtlar:


8

Not : Bu cevap giderek güncelliğini yitirmiştir.

İnternet Arşivi'nin web koleksiyonuna en büyük katkısı Alexa İnternet olmuştur. Alexa'nın amaçları doğrultusunda taradığı materyal birkaç ay sonra IA'ya bağışlandı. Soruda belirtilen izin verme kuralının eklenmesi bu taramaları etkilemez, ancak Wayback onları 'geriye dönük olarak' onurlandırır (erişimi reddetmek, malzeme hala arşivde olacaktır - malzemenizi gerçekten dışarıda tutmak istiyorsanız Alexa'nın robotunu hariç tutmalısınız İnternet Arşivinin).

Alexa'nın taramalarını etkilemenin yolları olabilir, ancak buna aşina değilim.

IA kendi tarayıcısını (Heritrix) geliştirdiğinden, kendi taramalarını yapmaya başladılar, ancak bunlar hedefli taramalar yapıyorlar (Kongre Kütüphanesi için seçim taramaları yapıyorlar ve Fransa ve Avustralya için ulusal taramalar yapıyorlar). Google ve Alexa'nın yürüttüğü sürekli dünya ölçeğinde tarama yapmıyorlar. IA'nın en büyük taraması, 2 milyar sayfayı taramak için özel bir projeydi.

Bu tarar proje belirli faktörlerden kaynaklanan programları üzerinde işletilen olarak, sitenizi ziyaret veya ne sıklıkta etkileyemez eğer sitenizi ziyaret.

IA'nın sitenizi nasıl ve ne zaman taradığını doğrudan etkilemenin tek yolu Archive-It hizmetini kullanmaktır. Bu hizmet, özel taramalar belirlemenize olanak tanır. Sonuçta elde edilen veriler (sonunda) IA'nın web koleksiyonuna dahil edilecektir. Ancak bu ücretli bir abonelik hizmetidir.


3
IA'nın kendi taramalarını yapma hakkındaki yorumu 2011'de doğruydu ve 2016'da artık doğru değil: şimdi kendi başımıza çok fazla tarama yapıyoruz.
Greg Lindahl

@GregLindahl bu soruya güncel bir cevap eklemek için bekliyoruz
Stephen Ostermiller

2

Çoğu arama motoru "Tarama gecikmesi" yönergesini destekler, ancak IA'nın bunu yapıp yapmadığını bilmiyorum. Yine de deneyebilirsiniz:

User-agent: ia_archiver
Crawl-delay: 3600

Bu, talepler arasındaki gecikmeyi 3600 saniye (yani 1 saat) veya ayda ~ 700 istek ile sınırlar.

Ben # 2 mümkün olduğunu sanmıyorum - IA bot varlıklarını uygun gördüğünde ve ne zaman kapmak. Çok fazla depolama alanı kullanmaktan kaçınmak için dosya boyutu sınırı olabilir.


@Kris: Bir tarama gecikmesi ayarlamak bunu proxy ile yapmalıdır. 30 sayfanız varsa ve tarayıcıya günde yalnızca bir kez vurmasını söylüyorsanız, her sayfanın yaklaşık 30 günde bir yenilenmesi muhtemeldir. (Açıkçası bir garanti değil.)
Hoşnutsuz Keçi

Ancak teoride evet, arşiv taraması yapıyorsanız böyle bir kurala asla uymazsınız. Bir siteyi günde bir belge taramak, belirli bir zamanda sitenin iyi bir şekilde yakalanamayacağı anlamına gelir. Bu özelliğe saygı duyulsaydı , herhangi bir arşiv taramasında 1-5 dakikalık bir üst sınırla olurdu .
Kris

Ah tamam, ne demek istediğini anlıyorum.
DisgruntledGoat

Az önce piyasaya sürülen Heritrix 3'e baktım ve tarama gecikmesi yönergesinin işlenmesini eklediklerini görüyorum, ancak varsayılan olarak sadece maksimum 300 saniyeye (5 dakika) saygı göstermeyi varsayılan olarak görüyor.
Kris
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.