Burada gerçekten 2 sorun var:
- Will
robots.txt
Sitenizde Disallow sitenizi taramasını (blok) Wayback.
- Wayback sitenizi tarar mı?
1. nokta için
: Diğerlerinin söylediği gibi, robots.txt için doğru giriş:
User-agent: ia_archiver
Disallow:
Wayback'in robots.txt dosyasında yaptığınız değişiklikleri fark etmesinin biraz zaman alabileceğini (belki de uzun zaman alacağını) unutmayın.
robots.txt
Sitenizdeki yolunun Wayback'in sitenizi taramasına izin verip vermeyeceğini kontrol etmek için:
- Bu URL'ye gidin: https://archive.org/web/
- Sayfanın üst kısmındaki kutuya sitenizdeki bir sayfanın URL'sini girin ve
"Browse History"
düğmesini tıklayın.
- Veya "Sayfayı Şimdi Kaydet" in altındaki kutuya (şu anda sağ altta) ve sitenizdeki bir sayfanın URL'sini girin ve
"Save Page"
düğmesini tıklayın.
Bu noktada, 3 şeyden birini görmelisiniz:
- Wayback'in "robots.txt" nedeniyle bu sitedeki sayfalara erişemediğini belirten bir hata mesajı göreceksiniz.
- Sitenizdeki sayfanın geçmiş kayıt noktalarının "takvimini" görürsünüz. Bu durumda, Wayback'in sitenizi taramasının engellenmediğini bilirsiniz.
- Veya, Wayback'in o sayfanın arşivine sahip olmadığını belirten bir mesaj ve sayfayı Wayback'e eklemek için bir bağlantıyı tıklatma teklifi görürsünüz. Bu durumda, Wayback'in sitenizi taramasının engellenmediğini de bilirsiniz.
Şimdi, 2. nokta için:
Will Wayback sitenizi taramasını?
Wayback'in sitenizi taramasına izin vermeniz , sitenizi her zaman tarayacakları anlamına gelmez.
Wayback SSS'ye göre (vurgu eklendi):
Arşivlenmiş web verilerimizin çoğu kendi taramalarımızdan veya Alexa Internet'in taramalarından gelir. Her iki kuruluşun da "sitemi şimdi tara!" teslim süreci. Internet Archive'ın taramaları , diğer sitelerden iyi bağlanmış siteleri bulma eğilimindedir . Web sitenizi bulduğumuzdan emin olmanın en iyi yolu, çevrimiçi dizinlere dahil edildiğinden ve benzer / ilgili sitelerin size bağlantı verdiğinden emin olmaktır.
Alexa Internet, taranacak siteleri keşfetmek için kendi yöntemlerini kullanır. Ücretsiz Alexa araç çubuğunu yüklemek ve bildiklerinden emin olmak için taranmasını istediğiniz siteyi ziyaret etmek yararlı olabilir.
Siteyi kimin taradığından bağımsız olarak, sitenizin 'robots.txt' kurallarının ve sayfa içi META robotları yönergelerinin tarayıcılara sitenizden kaçınmasını söylemediğinden emin olmalısınız.
Güncelleme: 09-Mayıs-2017
Diğerleri Archive.org'un artık robots.txt dosyasını onurlandırmadığını belirten yorum / cevap bıraktı. Belki de bu bir "devam etmekte olan çalışma" dır ve eninde sonunda böyle olacaktır, ancak henüz bu yeni davranışı görmedim.
Bu durumda bu makaleden geliyor gibi görünüyor: Robots.txt: ROBOTS.TXT tarafından bir intihar notudurarchiveteam.org
. Bu sayfada "Robots.txt" hakkında söylenecek iyi bir şey olmasa da, Archive.org'un artık robots.txt'yi onurlandırmayacağı hiçbir yerde bahsetmiyor .
Ayrıca Not: makale üzerinde barındırılan archiveteam.org
kesinlikle olmadığı, archive.org
ve ben değilim emin arasında herhangi (resmi) ilişki olduğunu archive.org
ve archiveteam.org
.
Aslında, Arşiv Ekibi ile ilgili bu sayfa, ve (vurgu eklenmiştir) arasında bir ayrım beyan ediyor gibi görünüyor :archive.org
archive.org
archiveteam.org
2009 yılında kurulan Arşiv Ekibi ( archive.org Archive-It Ekibi ile karıştırılmamalıdır ), hızla ölmekte olan veya silinmiş web sitelerinin kopyalarını tarih ve dijital miras adına kaydetmeye adanmış haydut bir arşivci kolektifidir. ...
Her durumda, bu denemeye karar verdi ve ben ortaya kondu şu anda en azından Archive.org HALA onur robots.txt:
- EBay'de rastgele bir öğe buldum: Ürün no: 131795294232
- Satılan ürünleri görmek için tıklayın:
- "Satılan ürünler" sayfası açılır: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Bağlantıyı panoya kopyalayın.
- Goto web.archive.org ve eBay linki yapıştırın.
- Bunun
archive.org
, "Sayfa robots.txt nedeniyle görüntülenemediğini" gösterdiğini göreceksiniz .
Yani, şu anda ikna olmadım, ama yanlış kanıtlanmayı çok isterim ... doğru olsaydı harika olurdu.