Robots.txt dosyasında hangi botları ve örümcekleri engellemeliyim?


14

Amacıyla:

  1. Web sitemin güvenliğini artır
  2. Bant genişliği gereksinimlerini azaltın
  3. E-posta adresinin toplanmasını önleyin

Yanıtlar:


17

E-postaları toplayan veya sitenizi güvenlik açıklarına karşı test eden hiçbir bot robots.txt'nize saygı göstermez. Aslında, bu kötü niyetli botlar sitenizi daha iyi haritalamak için robots.txt dosyasına bakar. Herhangi bir puan varsa, Disallow:bu sitenize daha iyi saldırı için kullanılacaktır. Sitenize el ile bakan bir bilgisayar korsanı, izin vermemeye çalıştığınız dosyaları / dizinleri incelemek için fazladan zaman harcamalıdır.


3
İlginç bir nokta. Disallow listesine sahte bir sayfa eklemenin mantıklı olup olmadığını merak ediyorum, tek amacı eylemde bu tür botları otomatik olarak engellenecek şekilde yakalamaktır.
Steven Sudit

5
@Steven Sudit bu kötü bir fikir değil. Buna bal kabı denir.
Kale

Evet, bu tam olarak doğru, ancak toptan hırsızlığı tespit etmek için dizin girişlerinin (telefon defterleri, vb.) Daha az sayıda sahte giriş eklemenin standart numarasından daha fazlasını düşünüyordum.
Steven Sudit

Bu bal küpünü tarpit olarak da kullanırsanız, illegit indeksleyicilerini de üzecektir. Bu, spam gönderenler için oldukça yaygındır - tarpit e-posta sunucusuna yol açan bal küpü değiştirilebilir bir e-posta adresi bırakın.
Mark Henderson

@ Farekeker Kuralları çiğneyenleri cezalandırmakta sorun görmüyorum. Spam göndericilerini kötü verilerle kandırmak ilginç bir bükülme.
Kale

4

robots.txt, web sitenizin güvenliğini artırmayacak veya e-posta adreslerinin toplanmasını engellemeyecektir. robots.txt, arama motorlarının web sitenizin bölümlerini atlaması için bir rehberdir. Bunlar dizine eklenmez ve herkese açık arama motorlarında gösterilmesini istemediğiniz bölümler için kullanılmalıdır.

Ancak bu, güvenliği artırmak veya e-posta toplamayı önlemek için hiçbir şekilde diğer botların sitenizin tamamını indirmesini engellemez. Güvenliği artırmak için kimlik doğrulama eklemeniz ve yalnızca güvenli bölümlerin ötesinde kimlik doğrulaması yapılmış kullanıcılara izin vermeniz gerekir. E-posta adreslerinin toplanmasını önlemek için, bir web sitesine e-postaları düz metin (veya kolayca deşifre edilebilir metin) koymayın.


1

robots.txt size güvenlik konusunda yardımcı olmaz. Gölgeli bir şey yapmak isteyen herhangi bir bot zaten görmezden gelecek.


0

Robots.txt dosyası yalnızca botların ve örümceklerin belirli içerik parçalarını tek başına bırakma isteği olarak kullanılır; aslında erişimlerini engelleyemez. "İyi" botlar buna saygı gösterir, ancak "kötü" olanlar (muhtemelen engellemek istediğiniz) onu görmezden gelir ve yine de devam eder.


-1

Robots.txt yerine, CAPTCHA kodlarını kullanmanız gerekebilir.


CAPTCHA kodlarının web tarayıcıları (robots.txt adresleri) ile hiçbir ilgisi yoktur.
user48838

Bu hatalı bir aşağı oydu. Bütün mesele, bir tarayıcının robots.txt dosyasını yok sayabileceğidir, ancak CAPTCHA kodları, açıkça engellemezse en azından yavaşlatır. Yanlış olduğunuz için teşekkür ederim.
Steven Sudit
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.