Baiduspider tarama frekansını yavaşlatmak mümkün mü?


18

Baidu örümcek tarama frekansı hakkında çok şey yapıldı. Doğru: "Baiduspider deli gibi sürünüyor."

Bu fenomeni çalıştığım sitelerde yaşadım. En azından bir örnekte, Baidus'un Google kadar yaklaşık% 1,1 trafik sağlamasına rağmen, Baiduspider'ın Googlebot ile yaklaşık aynı frekansta taradığını gördüm.

Bu ziyaretleri sitemde olabildiğince az tutmak istiyorum (belki bir gün büyüyecekler mi?), Ancak sunucumda bu kadar ağır bir yüke izin vermeyi haklı çıkaramıyorum.

Yukarıda bağlantılı soruya kabul edilen cevap, Baidu Web Yöneticisi Araçları'nın tarama hızını sınırlama fırsatı sunduğunu gösteriyor, ancak (yalnızca Çince) solucan kutularını açmaktan çekinmeyin.

BWT ile Baiduspider tarama hızını sınırlayan herhangi bir deneyimi olan var mı? Bu yükü sınırlamanın başka bir yolu var mı?

Yanıtlar:


11

Harika bir soru ve Baidu örümceği kötü bir şekilde agresif olduğu ve sunuculardan kaynakları zaplayabildiği için birçok webmaster ilgilenebilir ...

Baidu'nun Web Araması haberlerinde belirtildiği gibi, Baidu örümceği Tarama gecikmesi bildirim ayarını desteklemez ve bunun yerine, burada sitesinde belirtildiği gibi sitenizi Baidu Web Yöneticisi Araçları platformuna kaydettirmenizi ve doğrulamanızı gerektirir . Bu, tarama sıklığını doğrudan Baidu ile kontrol etmek için tek seçenek gibi görünüyor.

Sorun başka bir spam botlar (listelenen Baidu kullanıcı aracıları kullanmasıdır burada kendi SSS var belirtildiği gibi, sitenize örümcek için 2 numaralı altında) burada Baidu ile daha yavaş bir tarama oranı talep eden her şeyi çözmek olmayabilir Yani sayı 4. altında.

Bu nedenle, Baidu'nun Web Yöneticisi Araçlarını kullanmaya karar verirseniz, kullanıcı aracılarını, Botlar ve Tarayıcılar Veritabanı gibi bir kaynak kullanarak veya ters DNS araması kullanarak kendileriyle ilişkili olduğu bilinen IP'lerle karşılaştırmak akıllıca olabilir.

Diğer tek seçenek ya tüm Baidu kullanıcı aracılarını engellemek ve böylece Baidu'dan potansiyel trafiği feda etmek ya da Apache için mod_qos gibi bir şey kullanarak yönetmeyi talep eden aşırı istekleri sınırlamaya çalışmaktır :

  • Bir konuma / kaynağa (URL) veya sanal ana bilgisayara maksimum eşzamanlı istek sayısı.
  • Bir URL'ye saniyede izin verilen maksimum istek sayısı veya saniyede indirilen maksimum kbyte gibi bant genişliğinin sınırlandırılması.
  • Saniyedeki istek olaylarının sayısını sınırlar (özel istek koşulları).
  • Ayrıca, web sunucusuna daha az kısıtlama olmaksızın veya daha az kısıtlamayla erişebilen çok önemli kişileri (VIP) "algılayabilir".
  • Yetkisiz işlemleri reddetmek için genel istek satırı ve başlık filtresi. Gövde veri sınırlaması ve filtrelemesi iste (mod_parp gerektirir).
  • TCP bağlantı düzeyindeki sınırlamalar, örneğin, tek bir IP kaynak adresinden veya dinamik canlı tutma denetiminden izin verilen maksimum bağlantı sayısı.
  • Sunucuda boş TCP bağlantıları bittiğinde bilinen IP adreslerini tercih eder.

Yüklemek yavaş ve çeviri sorunları olan Baidu Web Yöneticisi Araçları ile bildirilen deneyimler bulamadım (İngilizce sürüm de yok). Bu yararlı olabilir, ancak elbette görüşe dayalı.


1
Bu @Dan gerçekten yardımcı olur. Bu çözümlerden birkaçını denemek (Baidu Web Yöneticisi Araçları gerçek bir acıdır.)
samthebrand

1
Teşekkürler! Harika - Başka seçenekler de bulursam bunu güncelleyeceğim. Bu soru, birçok web yöneticisinin saldırgan botlarla ilgili hayal kırıklıklarını ve onlarla etkileşim kurma endişelerini yansıtır (örn. Baidu Web Yöneticisi Araçları). İnşallah meşru botlar bunu dikkate alacak ve daha iyi araçlar / seçenekler sunulacaktır.
dan

@samthebrand ve dan - lütfen rapor verin! Önerebileceğiniz başka çözümler buldunuz mu?
lazysoundsystem

5

Bununla ilgili birçok araştırma ve denemeden sonra, sonunda mermiyi ısırdım ve bir Baidu Web Yöneticisi Araçları hesabı oluşturdum. Başka bir pencerede Google Çeviri ile donatıldığında kullanımı oldukça basittir. Normal tarayıcı modundan yakalayamadığınız düğmelerden Çince metin kopyalayıp yapıştırabilmek için kundakçı etkinleştirmeniz gerekebilir.

Kurulumu yaptıktan sonra, tarama verilerinin görünmesi için birkaç gün beklemeniz gerekir ve ardından tarama hızını özelleştirebilirsiniz. Bu URL ile alabilmeniz gereken "Basınç" adlı bir bölümde görünür:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Bu URL'yi yalnızca bir Baidu Web Yöneticisi Araçları hesap kurulumunuz varsa ve web sitesi URL'nizi söz konusu web sitesi için hesabınızla ilişkilendirdiyseniz kullanabileceğinizi unutmayın). Burada, geçerli tarama hızınızı ortada bir kaydırıcı göreceksiniz (benim durumumda günde 12676 istek. Tarama hızını azaltmak için sola kaydırın.

İsteğinize gerçekten saygı duyup duymadığı hakkında henüz bir fikrim yok. Size böyle bir şey söyleyen bir uyarı verir. "Baidu varsayılan site tarama hızını kullanmanızı öneririz. Yalnızca web sitenizde tarama ile ilgili sorunlar varsa ayarlamak için bu aracı kullanın. Sitenizin normal taramasını korumak için Baidu tarama hızı ayarınızı gerçekte dikkate alacaktır. site koşulları ve bu nedenle isteğinize göre ayarlama garanti edemez. "


1
Eminim bu konuda bir güncellemeyi takdir eden tek kişi ben değilim - talebe saygı duyuyor mu? Bir hesap oluşturmanızı tavsiye eder misiniz?
lazysoundsystem

Doğrudan URL'yi artık Web Yöneticisi Araçları'na daha derinden gömüldüğü için (artık menüde değil) tarama sıklığı ayarlama sayfasına güncelledik. Google translate, kafa karıştırıcı çeviriler nedeniyle bulmayı çok zorlaştırıyor ;-)
odony

-1

Evet, robots.txt dosyasındakiCrawl-delay parametreyi , aynı sunucuya ardışık istekler arasında beklenecek saniye sayısını ayarlamak için kullanabilirsiniz .

User-agent: Baiduspider
Crawl-delay: 100

İlk satır sadece Baidu Web tarayıcısına komutu onurlandırmasını söyler. 2. satır, sunucuya yapılan istekler arasında saniye cinsinden beklenecek süredir. İhtiyaçlarınız için istediğiniz zaman gecikmesini ekleyebilirsiniz.

Bu komutları mevcut robots.txt dosyanıza eklemeniz gerekir . Henüz bir robots.txt dosyanız yoksa , yukarıdaki kodu bir metin dosyasına ekleyin, dosyayı robots.txt olarak kaydedin ve web sitenizin kök klasörü olarak yükleyin, böylece aşağıdaki adreste görünür:

www.examplesite.com/robots.txt

2
Baiduspider, Tarama Gecikmesini desteklemez. Buraya bakın .
samthebrand

Hata! Bunu birkaç sitede gördü robots.txt dosyası öyle yaptı! Bu söz nasıl gidiyor ?!
Max
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.