Bir siteye hangi botların girmesine gerçekten değer?


11

Bir dizi bot yazdıktan ve bir siteyi taramak için meydana gelen çok sayıda rastgele bot gördükten sonra, bir web yöneticisi olarak merak ediyorum, hangi botların bir siteye gerçekten izin vermeye değer?

İlk düşüncem, botların siteye girmesinin potansiyel olarak siteye gerçek trafik getirebileceğidir. Bir siteye gerçek trafik gönderdiği bilinmeyen botlara izin vermek için herhangi bir neden var mı ve bu "iyi" botları nasıl tespit ediyorsunuz?


1
+1: iyi soru; ancak sorunuzu cevaplamak zor çünkü çok fazla bot var.
Zistoloen

@Zistoloen: Evet, zor bir soru olduğunun farkındayım; Aslında, sordum nedeni büyük bir arama motoru milyarlarca sayfa endeksli olduğunu biliyoruz çünkü siteler büyük olmayan arama motorlarını engellemeye çalışıyordu çünkü nasıl web büyük miktarlarda erişemediğini şikayet ediyordu.
hatalar karşısında


@blunders Zaman ayırdığınız için teşekkür ederiz. Soruyu ayrıştırabilseydim kendim düzenleyecektim :)
DisgruntledGoat

@DisgruntledGoat: Sorun değil, düzenlemeler için teşekkürler!
hatalar karşısında

Yanıtlar:


11

Normal botlar alanında, her şey neyi takdir ettiğinize bağlıdır ve sadece siz karar verebilirsiniz. Tabii ki Google, Bing / MSN / Yahoo !, Baidu ve Yandex var. Bunlar büyük arama motorları. Ayrıca çeşitli SEO ve backlink siteleri vardır. Doğru ya da yanlış, birkaç büyük olanın siteme erişmesine izin veriyorum, ancak genellikle, yararsız sitelerdir. Archive.org'u yalnızca robots.txt dosyasında değil, alan adı ve IP adresiyle de engellerim. Bunun nedeni robots.txt dosyasını büyük zaman görmezden gelmeleridir! Bu, hissetmeniz gereken bir şey. Ajan isimleri tarafından aldanmayın. Genellikle kötü insanlar tarafından dövülürler. Şimdi günler, Baidu olduğunu iddia eden kaynaklardan binlerce sayfa isteği alıyorum, ama değil. Alan adlarına ve IP adres bloklarına göre bu örümcekleri tanıyın ve bu seviyede onlarla başa çıkmayı öğrenin. İyiler robots.txt dosyasına uyuyor.

Ama sizi uyarmalıyım, bir TON gizli bot, haydut bot, kazıyıcı ve daha fazlası var, böylece günlük analizinizi sık sık aramak ve engellemek isteyeceksiniz. Bu 5uck5! Ama yapılması gerek. Bu gün onlardan en büyük tehdit sitenize düşük kaliteli bağlantılar vardır. Bu yıl uyguladığım güncelleştirilmiş anti-bot güvenlik kodum 7700 düşük kaliteli bağlantıyı otomatik olarak düşürdü. Tabii ki, kodumun hala çalışmaya ihtiyacı var, ama anladın. Kötü botlar hala site potansiyelini çalıyor.

Asmak çok uzun sürmeyecek.


1

Arama motoru neredeyse hiç trafik göndermiyorken Baidu botlarının sunucumu yavaşlatmasıyla ilgili sorunlar yaşadım. Bu botlar robots.txt dosyasına saygı göstermez, bu nedenle Baidu botlarını engellemek için aşağıdakileri sadece htccess dosyanıza yapıştırın.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Ben de çok hızlı tarama Bing / Microsoft örümcekler ile ilgili sorunlar yaşadım, onlar Baidu aksine robots.txt dosyasına saygı duyuyorum;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.