«web-crawler» etiketlenmiş sorular

4
Bir şirket web sitemi tarama hakkına sahip mi?
McAfee SiteAdvisor'ın web sitemi "güvenlik sorunları yaşıyor" olarak bildirdiğini öğrendim . McAfee web sitemde ne düşünüyorsa onu çok az umursuyorum (kendim güvenceye alabilirim ve olmasa da, McAfee kesinlikle yardım isteyeceğim şirket değil, çok teşekkür ederim). Yine de beni rahatsız eden şey, görünüşe göre, web sitemi iznim olmadan taradılar. Netleştirmek için: …

3
Siteler proxy'lerin veya şirket ağlarının arkasındaki botları nasıl algılar
Büyük siteler (örneğin Wikipedia) diğer IP maskerlerinin arkasındaki botlarla nasıl başa çıkar? Örneğin, üniversitemde herkes Wikipedia'yı araştırıyor ve önemli bir yük veriyor. Ancak, bildiğim kadarıyla, Wikipedia sadece üniversite yönlendiricisinin IP'sini bilebilir, bu yüzden bir "serbest bırakılmış" bot kurarsam (istekler arasında sadece küçük bir gecikmeyle), Wikipedia botumu tüm organizasyonu yasaklamadan yasaklayabilir …

4
Belirli bir İSS'ye ait tüm IP aralıklarını bulma
Sitemi agresif bir şekilde kazımaya devam eden belirli bir kişiyle sorun yaşıyorum; bant genişliği ve CPU kaynaklarını israf etmek. Zaten web sunucusu erişim günlüklerimi kuyruklayan, her yeni IP'yi bir veritabanına ekleyen, bu IP'den yapılan isteklerin sayısını izleyen ve aynı IP içinde belirli bir istek eşiğini geçerse, bir sistem uyguladım belirli …

5
Bu 'kötü botlar' kapalı web sunucumu nasıl buluyor?
Bir süre önce Apache'yi yükledim ve access.log dosyasına hızlı bir bakış, bilinmeyen her türlü IP'nin, çoğunlukla 403, 404, 400, 408 durum koduyla bağlandığını gösteriyor. Nasıl buldukları hakkında hiçbir fikrim yok IP adresim, çünkü sadece kişisel kullanım için kullanıyorum ve arama motorlarını uzak tutacağını umarak bir robots.txt ekledim. Dizinleri engelliyorum ve …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.