«web-crawlers» etiketlenmiş sorular

Web sayfalarına çeşitli amaçlarla erişen bir bilgisayar programı (içeriği kazımak, arama motorlarına siteniz hakkında bilgi sağlamak vb.)


1
Var olmayan trafficbasedsspsitemap.xml için Bingbot isteği
Yönettiğim bir web sitesinin günlükleri Bingbot tarafından var olmayan bir dosya için istek gösteriyor. İsteğin detayları Yol: /trafficbasedsspsitemap.xml Yararlı: "Mozilla / 5.0 (uyumlu; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" IP adresi: 65.55.213.244 (geriye doğru arama, msnbot-65-55-213-244.search.msn.com adresine gider ) Bingbot'un bu dosyayı aramasının nedeni nedir? "Trafik Tabanlı SSP Site Haritası" …

8
Robotların sayfanın belirli bir bölümünü taramasını önleme
Forumu olan küçük bir siteden sorumlu bir web yöneticisi olarak, kullanıcılardan düzenli olarak hem dahili arama motorunun hem de harici aramaların (Google kullanırken olduğu gibi) kullanıcılarımın imzaları tarafından tamamen kirlendiğinden şikayet ediyorlar (uzun kullanıyorlar. imzalar ve bu forumun deneyiminin bir parçası çünkü imzalar forumumda çok anlamlı. Yani temelde şu an …

4
Yahoo Search şimdi Bing Arama ile aynı mı?
Geçmişte Yahoo'nun (inanılmaz) kötü yazılmış örümceği ile ilgili ciddi sorunlarımız oldu ve bunun sonucunda onları engelledik. Tumblr'dan Marco Arment de 8/31/2009 tarihinde bizimle ilgili hayal kırıklıklarını paylaştı, bu da onları engellememizi sağlayan bir faktördü. [Yahoo Örümcek], EST'den yaklaşık 5: 30'dan bu yana bizi 70-200 istek / saniye sular altında bıraktı. …


6
Sitemi taramak ve ölü bağlantıyı ve bağlantısız dosyaları bulmama yardımcı olmak için iyi bir araç [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden konuyla Web Yöneticileri Stack Exchange için. 6 yıl önce kapandı . Kelimenin tam anlamıyla bazen bir veritabanında hesaba katıldığı binlerce PDF içeren, ancak genellikle sayfadaki bağlantılardan oluşan ve sitedeki çoğu …

3
Baiduspider tarama frekansını yavaşlatmak mümkün mü?
Baidu örümcek tarama frekansı hakkında çok şey yapıldı. Doğru: "Baiduspider deli gibi sürünüyor." Bu fenomeni çalıştığım sitelerde yaşadım. En azından bir örnekte, Baidus'un Google kadar yaklaşık% 1,1 trafik sağlamasına rağmen, Baiduspider'ın Googlebot ile yaklaşık aynı frekansta taradığını gördüm. Bu ziyaretleri sitemde olabildiğince az tutmak istiyorum (belki bir gün büyüyecekler mi?), …

3
Hangi kullanıcı aracısını ayarlamalıyım?
Bu başlığı ayarlayan Ask bot var: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Bunu göz önünde bulundurarak, aşağıdaki sorularım var: Goofy adında bir web tarayıcısı yazıyorsam, hangi kullanıcı aracısını kullanmalıyım? Fark ne koyarsanız olduğunu Mozilla/2.0veya Mozilla/5.0? Kullanıcı aracımı mevcut standartlara uyacak şekilde nasıl biçimlendirmem gerektiği konusunda başka öneriler de memnuniyetle karşılanmaktadır.

3
SEO - Duyarlı Web Sitesi ve Çoğaltılmış Menüler
Bir Duyarlı Web sitesi oluşturduğumda genellikle 2 menü oluştururum: 1 gizli ve mobil cihazlar için kullanılır ve diğeri ana menü olarak görüntülenir, sonra mobil menüyü göstermek için gizlenir. SEO ve web sitesinde gezinen örümcekler söz konusu olduğunda, yinelenen menülere sahip olduğum için ölürüm? Örümcek için bu menünün mobil cihazlar için …

3
Robots.txt bir sunucunun alt dizininde olabilir mi?
Arama motoru web tarayıcılarından gizlemek istediğiniz bir alt dizin var. Bunu yapmanın bir yolu robots.txtsunucunun kök dizininde (standart yol) bir kullanmaktır. Ancak, web sitesi URL'sini bilen ve bazı temel web bilgisine sahip olan herkes robots.txt içeriğine erişebilir ve izin verilmeyen dizinleri tespit edebilir. Bundan kaçınmanın bir yolunu düşündüm, ama işe …

7
Baidu örümcekleri nasıl engellenir
Ziyaretlerimin çoğu baidu örümceklerinden. Arama motorlarına hiç yardımcı olmadığını düşünmüyorum, bu yüzden onları nasıl engelleyeceğinizi düşünüyorum. Bu iptables ile yapılabilir mi? Web sunucum olarak nginx kullanıyorum.

3
Kötü amaçlı botların spam göndermesini önleme
Kötüye kullanım nedeniyle kapalı bir siteyi hatırlıyorum ve botların bir parçası olup olmadığını merak ediyorum. Bot siteme bir şey POSTing ise onunla mücadele yolları nelerdir? Bazı çerezleri ayarlamayı ve çerezleri JavaScript + zaman damgası ve işaretiyle değiştirmeyi düşünüyordum (bu yüzden dünkü çerezler bugün ve gelecek hafta kullanılamaz). Çoğu insanın / …

3
Google, bağlantısı olmayan bir alanı nasıl bulur?
Kısa süre önce yeni bir alan adı kaydettim, mevcut sunucuma yönlendirdim ve yalnızca "test et" diyen minimal bir sayfa oluşturdum ve başka bir şey yapmadım. Bu gece sayfanın zaten Google'da dizine eklendiğini keşfettim! Siteye bağlantı yok (henüz onunla hiçbir şey yapmadığım için alan adı hakkında kimseye söylemedim). Google, WHOIS kayıtlarını …

4
Robots.txt ve sitemap.xml dosyaları bir .htaccess yönlendirmesi yoluyla dinamik olabilir mi?
Çok dilli ve çok alanlı bir sitem var. Benzersiz bir CMS yüklemesi (Drupal) ile çalışır, bu yüzden tek bir kök dizini var. Statik bir robots.txt dosyam varsa, orada bildiğim kadarıyla tek bir etki alanı için dosyaları gösterebilirim. .Htaccess içine bir satır koyabilir miyim Redirect 301 /robots.txt /robots.php (veya eşdeğer talimat …

2
Botları sitemden engellemeli miyim ve neden?
Günlüklerim genellikle Doğu Avrupa ve Çin'den gelen bot ziyaretçileriyle dolu. Botlar Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou vb. Bu botları sitemden engellemeli miyim ve neden? Hangilerinin siteme gelen trafiği artırmak için meşru bir amacı var? Birçoğu SEO. Botların çok sayıda gelmesinden bu yana daha az trafik gördüğümü söylemeliyim . Bunları engellemek …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.