Archive.org bot'a nasıl düzgün (dis) izin verilir? İşler değişti, eğer öyleyse?

10

Çoğunlukla arama motorları tarafından dizine eklenmesini istemediğim bir web sitem var, ancak archive.org'da sonsuza kadar korumak istiyorum. Yani benim robots.txtbununla başlıyorum:

User-agent: *
Disallow: /

Bugün, archive.org'a göre robots.txtbotlarına izin vermek için aşağıdakileri eklemeliyim :

User-agent: ia_archiver
Disallow:

Ancak, birkaç yıl önce belirttiklerini zaten yapmıştım, en azından aşağıdakileri ekledim:

User-agent: archive.org_bot
Disallow:

Ardından , yukarıdaki iki öğeyi ve başka bir tanesini eklemeniz gerektiğini iddia eden başka bir kaynak var Disallow:

User-agent: ia_archiver-web.archive.org 
Disallow:

Eğer koymak gerektiğini Not Disallow: /eğer yok sitenizi arşivlemek için bot istiyorum.

IA bot ile bir değişiklik oldu mu? Varsa ne zaman?

Tavsiye edilen yol nedir? Şimdilik sadece üçüne de izin vermeli miyim ve IA'nın gelecekte bot adlarını tekrar değiştirmeyeceğini ummalı mıyım?

web-crawlers robots.txt internet-archive

— kqw
kaynak

Sadece ia_archiver'ın farkındaydım. Diğerleri benim için bir sürpriz. Bunun için bağlantınız var mı? Sormamın nedeni, archive.org'un yine de sitemi ziyaret etmesi ve IP adresine göre engellemem gerekti. Ayrıca söz musunuz archive.org izin ama sonra bunu engelleme hakkında konuşmak istiyorum. Sadece bu konuda daha net olmak istiyorum ve bağlantılar hepimize yardımcı olabilir. Şimdiden teşekkürler!

— closetnoc

Soru güncellendi. Umarım şimdi daha açıktır. Küçük sürüm: Bu sitede arama motorları botları istemiyorum, archive.org botları istiyorum. Ama belki de soruyu tersine çevirmeliyim çünkü çoğu insan aradığı şey budur?

— kqw

Aslında, bunlardan herhangi birini kullanmazsanız, bir battaniye ifadesiyle engellememeniz koşuluyla archive.org'a izin veriyorsunuz.

— closetnoc

Sadece "ia_archiver" kullanmak "ia_archiver-web.archive.org" u da engellemelidir, bu nedenle daha sonra gereksiz gibi görünecektir (bu botun standarda uyması şartıyla).

— MrWhite

Erişim günlüklerinizde ia-archiver (veya archive.org_bot) botunu görüyor musunuz?

— MrWhite

9

Güncelleme : @KevinFegan'ın yorumlarda belirttiği gibi, belgeleri değişti. Aşağıdaki bölüm, İnternet Arşivinin geçmişte (en azından 2014'te) nasıl ele aldığını açıklamaktadır.

SSS Sitemdeki sayfaları Wayback Machine'den nasıl hariç tutabilirim? " Belgeleri", bot'larının çağrıldığı belgeleri Wayback Makinesinden Kaldırma anlamına gelir ia_archiver.

Bu nedenle, bu kayıt botlarının sitenizin tamamını taramasına izin vermelidir:

User-agent: ia_archiver
Disallow:

— UNOR
kaynak

Grupların sırası önemli değil. Eşleşen en belirgin (yani en uzun) kullanıcı aracısı kazanır. *Hiçbir diğer grup eşleşti zaman grubu yalnızca eşleşir.

— MrWhite

@ w3d: Haklısın, bu kısmı kaldırdım. Bilgi için teşekkürler :)

— unor

1

Görünüşe göre, bu zaman içinde değişti. Sağladığınız SSS Sayfasında ve 25 Nisan 2017 tarihli bu Archive.org Blog sayfasında "ia_archiver" bulamıyorum, Mark Graham şöyle diyor: "ia_archiver" Kullanıcı Aracısı İnternet Arşivi değil Alexa İnternet tarafından kullanılıyor.

— Kevin Fegan

@KevinFegan: Bildiriminiz için teşekkürler! Yanıtımı, adı içeren belgelerin arşivlenmiş sürümlerine bağlanmak için güncelledim.

— unor

Kaçabilmeleri için bilerek işleri karmaşık hale getirmeyi seviyorum!

— Ultralisk

5

Burada gerçekten 2 sorun var:

Will robots.txtSitenizde Disallow sitenizi taramasını (blok) Wayback.
Wayback sitenizi tarar mı?

1. nokta için
: Diğerlerinin söylediği gibi, robots.txt için doğru giriş:

User-agent: ia_archiver
Disallow:

Wayback'in robots.txt dosyasında yaptığınız değişiklikleri fark etmesinin biraz zaman alabileceğini (belki de uzun zaman alacağını) unutmayın.

robots.txtSitenizdeki yolunun Wayback'in sitenizi taramasına izin verip vermeyeceğini kontrol etmek için:

Bu URL'ye gidin: https://archive.org/web/
Sayfanın üst kısmındaki kutuya sitenizdeki bir sayfanın URL'sini girin ve "Browse History"düğmesini tıklayın.
Veya "Sayfayı Şimdi Kaydet" in altındaki kutuya (şu anda sağ altta) ve sitenizdeki bir sayfanın URL'sini girin ve "Save Page"düğmesini tıklayın.

Bu noktada, 3 şeyden birini görmelisiniz:

Wayback'in "robots.txt" nedeniyle bu sitedeki sayfalara erişemediğini belirten bir hata mesajı göreceksiniz.
Sitenizdeki sayfanın geçmiş kayıt noktalarının "takvimini" görürsünüz. Bu durumda, Wayback'in sitenizi taramasının engellenmediğini bilirsiniz.
Veya, Wayback'in o sayfanın arşivine sahip olmadığını belirten bir mesaj ve sayfayı Wayback'e eklemek için bir bağlantıyı tıklatma teklifi görürsünüz. Bu durumda, Wayback'in sitenizi taramasının engellenmediğini de bilirsiniz.

Şimdi, 2. nokta için:

Will Wayback sitenizi taramasını?

Wayback'in sitenizi taramasına izin vermeniz , sitenizi her zaman tarayacakları anlamına gelmez.

Wayback SSS'ye göre (vurgu eklendi):

Sitemi Wayback Machine'e nasıl dahil edebilirim?

Arşivlenmiş web verilerimizin çoğu kendi taramalarımızdan veya Alexa Internet'in taramalarından gelir. Her iki kuruluşun da "sitemi şimdi tara!" teslim süreci. Internet Archive'ın taramaları , diğer sitelerden iyi bağlanmış siteleri bulma eğilimindedir . Web sitenizi bulduğumuzdan emin olmanın en iyi yolu, çevrimiçi dizinlere dahil edildiğinden ve benzer / ilgili sitelerin size bağlantı verdiğinden emin olmaktır.

Alexa Internet, taranacak siteleri keşfetmek için kendi yöntemlerini kullanır. Ücretsiz Alexa araç çubuğunu yüklemek ve bildiklerinden emin olmak için taranmasını istediğiniz siteyi ziyaret etmek yararlı olabilir.

Siteyi kimin taradığından bağımsız olarak, sitenizin 'robots.txt' kurallarının ve sayfa içi META robotları yönergelerinin tarayıcılara sitenizden kaçınmasını söylemediğinden emin olmalısınız.

Güncelleme: 09-Mayıs-2017

Diğerleri Archive.org'un artık robots.txt dosyasını onurlandırmadığını belirten yorum / cevap bıraktı. Belki de bu bir "devam etmekte olan çalışma" dır ve eninde sonunda böyle olacaktır, ancak henüz bu yeni davranışı görmedim.

Bu durumda bu makaleden geliyor gibi görünüyor: Robots.txt: ROBOTS.TXT tarafından bir intihar notudurarchiveteam.org . Bu sayfada "Robots.txt" hakkında söylenecek iyi bir şey olmasa da, Archive.org'un artık robots.txt'yi onurlandırmayacağı hiçbir yerde bahsetmiyor .

Ayrıca Not: makale üzerinde barındırılan archiveteam.orgkesinlikle olmadığı, archive.orgve ben değilim emin arasında herhangi (resmi) ilişki olduğunu archive.orgve archiveteam.org.

Aslında, Arşiv Ekibi ile ilgili bu sayfa, ve (vurgu eklenmiştir) arasında bir ayrım beyan ediyor gibi görünüyor :archive.org archive.orgarchiveteam.org

2009 yılında kurulan Arşiv Ekibi ( archive.org Archive-It Ekibi ile karıştırılmamalıdır ), hızla ölmekte olan veya silinmiş web sitelerinin kopyalarını tarih ve dijital miras adına kaydetmeye adanmış haydut bir arşivci kolektifidir. ...

Her durumda, bu denemeye karar verdi ve ben ortaya kondu şu anda en azından Archive.org HALA onur robots.txt:

EBay'de rastgele bir öğe buldum: Ürün no: 131795294232
Satılan ürünleri görmek için tıklayın:

"Satılan ürünler" sayfası açılır: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Bağlantıyı panoya kopyalayın.
Goto web.archive.org ve eBay linki yapıştırın.
Bunun archive.org, "Sayfa robots.txt nedeniyle görüntülenemediğini" gösterdiğini göreceksiniz .

Yani, şu anda ikna olmadım, ama yanlış kanıtlanmayı çok isterim ... doğru olsaydı harika olurdu.

— Kevin Fegan
kaynak

Archive.org'u robots.txt ile kilitlemek artık işe yaramıyor:

— wortwart

@wortwart - Öyle olsaydı harika olurdu (cevabıma eklediğim güncellemeye bakın). Bu konuda bilgi bağlantılarınız var mı?

— Kevin Fegan

Tabii: blog.archive.org/2017/04/17/… "Birkaç ay önce ABD hükümeti ve askeri web sitelerindeki robots.txt dosyalarına başvurmayı bıraktık (...) Şimdi bunu daha geniş bir şekilde yapmak istiyoruz. "

— wortwart

4

2017 Güncellemesi

Arşiv botu artık robots.txt'nizi önemsemiyor.

Gerçekten engellemek istiyorsanız, bu sayfaya göre bir e-posta gönderin veya IP adreslerini htaccess ile engelleyin.

— Goyllo
kaynak

2

Benim cevap May 2017 güncellemesini bakınız: Düzgün (dis) archive.org bot izin nasıl ...? . Arşiv botu , devlet web siteleri hariç, robots.txt dosyasını hâlâ önemsiyor. Bahsettiğiniz makalenin Archive.org ile ilgili olmayan www.archiveteam.org sitesinden olduğuna dikkat edin. --->

— Kevin Fegan

---> Bu sayfada "Robots.txt" hakkında söylenecek iyi bir şey olmasa da, Archive.org'un artık robots.txt'yi onurlandırmayacağı hiçbir yerde bahsetmiyor. İlgili Archive.org makalesi: Arama motorları anlamına gelen Robots.txt, web arşivleri için iyi çalışmıyor . "Birkaç ay önce ABD hükümetindeki ve askeri web sitelerindeki robots.txt dosyalarına başvurmayı bıraktık (...) Şimdi bunu daha geniş bir şekilde yapmak istiyoruz."

— Kevin Fegan

Evet. Artık Arşiv kaldırma isteklerini tamamen görmezden geliyor.

— Ultralisk

3

Robots.txt ia_archiver Disallow girişi ("/" ile birlikte), tanımladığınız ihtiyaç için iyi olmalıdır ("sonsuzluğu korumak için" ancak henüz herkese açık olmamalıdır).

En azından son 10 yıldır sahip olan bir site için ia_archiver Disallow girişini yorumlayarak hızlı bir test yaptım. Daha sonra siteyi archive.org/web adresinde gördüm ve 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 ve 2017'de topladığı kepçeleri gösterdi! Bu, Archive.org'un bu yıllarda başkalarının "arşivleme" ifadesi olduğunu düşündüklerini kesinlikle onurlandırmadıkları, yalnızca arşivlenmiş kopyaları göstermediği anlamına gelir.

— mikrofon
kaynak

2

"ia_archiver" şimdi (ab) Alexa tarafından kullanılıyor, bazı kaynaklar şöyle diyor: 1 , 2 .
Archive.org now (2018) artık "robots.txt" dosyasına artık saygı duymuyor. 3 Yalnızca mil / gov sayfaları için değil, tüm sayfalar için. 2012'den bu yana ia-robots.txt dosyası içeren ve sahip olan kendi özel web sitemde deneyimli olarak; ve şimdi birdenbire onlar tarafından yıllarca tarandığını ve kurtarıldığını öğrendim ve şimdi tüm tarih görünür. İhanete uğramak gibi bir duygu. > :-(

— Carl
kaynak

1

robots.txtYöntemi denedim ve işe yaramadı. Bu yüzden info@archive.org e-posta adresinden web sitesine başvurdum:

Merhaba,

Kişisel web sitemi dimitarnestorov.com'u arşivinizden kaldırabilir misiniz?

Teşekkürler!

Dimitar

Ve şu cevabı aldım:

Merhaba,

İnternet Arşivi web sitelerini Wayback Machine'den (web.archive.org) hariç tutabilir, ancak öncelikle aşağıdakilerden birini yaparak dimitarnestorov.com'un site sahibi veya içerik yazarı olduğunuzu doğrulamamıza yardımcı olmanızı rica ederiz:

(Not: Bu seçeneklerden bazıları, önceki Wayback Machine yakalamalarında bulunan içeriğe ve / veya belirtilen zaman dilimiyle ilgili olabilecek belgelere referans olabilir.)

isteğinizi sitenin mevcut sürümüne gönderin (ve bize bir bağlantı gönderin).

isteğinizi sitede listelenen ana e-posta kişisinden gönderin ve nerede bulunabileceğini bize bildirin (varsa).

tescil ettirenin e-postasından (bizi WHOIS aramasında herkese açık olarak görüntülenebiliyorsa) veya sitede listelenen web yöneticisinin e-postasından bir istek gönderin.

bizi kişisel bilgilerinizin (ad, iletişim noktası, kendinizin görüntüsü) sizi sitenin sahibi veya hariç tutmak istediğiniz içeriğin yazarı olarak tanımlayacak şekilde göründüğü yere yönlendirin - bu örnekte, geçerli bir fotoğraflı kimliğin taranmasıyla kimliğinizi doğrulamak için (doğum tarihi, adres veya telefon numarası gibi hassas bilgiler düzeltilebilir).

bize bir barındırma şirketinden veya alan adının sahibi olarak size gönderilen kayıt kuruluşundan gelen iletişimi iletin.

(Not: Birinin adının / kullanıcı adının ve / veya siteler / sayfalar / hesaplar arasındaki köprü / yönlendirmenin basitçe belirtilmesi, arşivlerin hariç tutulması için genellikle yeterli değildir.)

Bu seçeneklerden hiçbiri kullanılamıyorsa, lütfen bu e-postayı yanıtlayarak bize bildirin.

Arşivi mümkün olduğunca korumamıza yardımcı olursanız minnettar oluruz. Bu nedenle, yalnızca ilgilendiğiniz belirli URL'lerin veya dizinlerin olup olmadığını bize bildirin, böylece geri kalan arşivleri bırakabiliriz.

Bildiğiniz gibi, İnternet Arşivi, Wayback Machine aracılığıyla İnternet'in serbestçe erişilebilen tarihi bir kaydını tutmaya çalışan kar amacı gütmeyen bir dijital kütüphanedir. Arşivlerdeki materyaller ticari arşiv için İnternet Arşivi tarafından kullanılmamaktadır.

İnternet Arşiv Ekibi

wayback-removal-request.htmlAşağıdaki içerikle oluşturdum (geçerli HTML bile değil):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Yükledi ve web sayfasının kullanılabilir olduğu URL ile e-postalarını yanıtladı ve daha sonra aşağıdaki yanıtı aldım:

Merhaba,

Aşağıdaki e-postanızda belirtilen site / URL şimdi http://www.archive.org adresindeki Wayback Machine'den hariç tutulmak üzere gönderildi (tüm geçmiş yakalamalarla ilgili olarak):

dimitarnestorov.com

Lütfen sürecin otomatik kısımlarının rotasını yürütmesi ve değişikliklerin yürürlüğe girmesi için bir gün bekleyin.

İnternet Arşiv Ekibi

Birkaç saat sonra kontrol ettiğimde web sitem kaldırıldı.

— Dimitar Nestorov
kaynak