«web-crawlers» etiketlenmiş sorular

Web sayfalarına çeşitli amaçlarla erişen bir bilgisayar programı (içeriği kazımak, arama motorlarına siteniz hakkında bilgi sağlamak vb.)

1
Neden baidu sitemi çılgın gibi tarar?
Apache günlüğümü kontrol ederken baidu'nun son 2 hafta boyunca günde 10 kez web sitemi taradığını görebiliyorum. Bunu çok önemsediğimden değil, ama neden bunu yaptığını gerçekten merak ediyorum. Çok küçük gelen bir web sitesi. Bunun arkasında herhangi bir sebep var mı? 220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 180.76.5.197 [10/Mar/2012:11:02:02 +0100] …

4
Taranabilir Ajax'ın durumu?
Google'ın # ile Ajax uygulamalarını taranabilir hale getirmek için güzel bir teklifi / standardı olduğunu gördüm. (karma patlama). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Sorularım: Şu anda bu "öneri" yi gerçek dünyada kullanıyorlar mı? Diğer arama motorları - Bing özellikle kullanıyor mu veya kullanmayı planlıyor mu?

6
Botları görüntüleme sayılarından hariç tutmanın en iyi yolu nedir?
Web sitem belirli sayfalardaki ziyaretçi görüntülemelerini sayıyor. Google ve diğer Botların sitemi çılgın gibi "tıkladığını" ve bazı sayfaların gerçekçi olmayan görüntüleme sayıları aldığını fark ettim (insanlar tarafından üretilenlere kıyasla). Bu botları görüş sayımımın dışında tutmak için en iyi uygulamaları istiyorum. Açıkçası basit bir "kullanıcı aracısı" içerir "bot" yapmaz. Ben bir …

4
Google CDN dosyalarını taramaz
Google Web Yöneticisi Araçları'nın web sitemde çok sayıda engellenmiş kaynak bildirdiğini fark ettim. Şu anda tüm "engellenen kaynaklar", Cloudfront CDN'den hizmet verdiğim .css, .js ve resimlerdir (.jpg, .png). Test etmek ve google'ın bu dosyaları neden taramadığını ve "kaynak bloğu" durumunu bildirmediğini anlamaya çalışarak çok zaman harcadım. Şu anda bu dosyaları …

2
Bir siteye hangi botların girmesine gerçekten değer?
Bir dizi bot yazdıktan ve bir siteyi taramak için meydana gelen çok sayıda rastgele bot gördükten sonra, bir web yöneticisi olarak merak ediyorum, hangi botların bir siteye gerçekten izin vermeye değer? İlk düşüncem, botların siteye girmesinin potansiyel olarak siteye gerçek trafik getirebileceğidir. Bir siteye gerçek trafik gönderdiği bilinmeyen botlara izin …

2
Google Web Yöneticisi Araçları bana robotların site haritasına erişimi engellediğini söylüyor
Bu benim robots.txt dosyam : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ancak Google Web Yöneticisi Araçları, robotların site haritasına erişimi engellediğini söylüyor: Site Haritanıza erişmeye çalışırken bir hatayla karşılaştık. Lütfen Site Haritanızın yönergelerimize uyduğundan ve sağladığınız yerden erişilebildiğinden emin olun ve ardından yeniden gönderin: URL, robots.txt tarafından kısıtlandı …

4
Adsense tıklama bot sitemi bomba tıklayarak
Şu anda günde yaklaşık 7.000 - 10.000 sayfa görüntüleme alan bir sitem var. 01.07.2012 günü sabah 1 civarında başlayarak TO'nun çarpıcı bir şekilde yükseldiğini fark ettim. Bu tıklamalar kısa bir süre sonra kredilendirilecek ve ardından kredisi kaldırılacaktı. Yani, açıkça sahtekar tıklamalardı. Ertesi gün yaklaşık 200 tıklama aldım ve bunların yaklaşık …

1
Kullanıcı aracılarını robots.txt dosyasında birleştirin
Kullanıcı aracıları birlikte listelenebilir ve bunları bir robots.txt dosyasında olduğu gibi ortak kuralları izleyebilir mi? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

1
Googlebot, harita konumumuza binlerce istek gönderiyor ve API kotasını kullanıyor
Müşterilerimizin sitesinde bir mağaza bulma sayfası var. Son kullanıcı posta kodunu ve arama yarıçapını girer ve sonuçları bir Google Haritasında görüntüleriz. Son zamanlarda, sitenin genel trafikte dikkate değer bir artış olmadan ücretsiz harita arama sınırına (24 saatte yaklaşık 25.000) ulaştığını fark etmeye başlamıştık. Sorunun ne olduğunu bulmak için bazı ek …

1
Robots.txt dosyasındaki “Noindex:” nasıl çalışır?
Ben karşılaştım bu makalede bugün SEO haber. Görünüşe göre robots.txt dosyasındakiNoindex: standart Disallow:direktiflere ek olarak direktifleri de kullanabilirsiniz . Disallow: /page-one.html Noindex: /page-two.html Arama motorlarının birinci sayfayı taramasını ve ikinci sayfayı dizine eklemelerini önleyecek gibi görünüyor. Bu robots.txt yönergesi Google ve diğer arama motorları tarafından destekleniyor mu? Çalışıyor mu? Belgelenmiş …

2
Yalnızca Google ve Bing botlarının bir siteyi taramasına izin ver
Bir site için aşağıdaki robots.txt dosyasını kullanıyorum: Hedef, googlebot ve bingbot'un sayfa dışındaki siteye erişmesine izin vermek ve /bedven/bedrijf/*diğer tüm botların siteyi taramasını engellemektir. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * …

2
Kullanıcı aracılarındaki URL'lerin önünde artı işareti
Küçük bir web tarayıcısı çalıştırıyorum ve bunun için hangi kullanıcı aracısının kullanılacağına karar vermek zorunda kaldım. Tarayıcı ajanlarının ve Wikipedia'nın listeleri aşağıdaki biçimi önerir: examplebot/1.2 (+http://www.example.com/bot.html) Ancak bazı botlar URL'nin önündeki artı işaretini atlar. İlk başta bunun ne anlama geldiğini merak ediyorum, ancak herhangi bir açıklama bulamadım. RFC 2616, parantez …

1
Google 403 sayfamı nasıl taramayı başardı?
Okul klasörümdeki bir dizinde birkaç özel dosyam vardı. Dosyaları myschool.edu/myusername/myfolder adresine giderek, myschool.edu/myusername/myfolder/myfile.html adresinden dosyalara erişmeye çalıştıklarını görebilirsiniz. Yine de Google bir şekilde bu özel dosyaların içeriğini almayı ve önbelleğinde saklamayı başardı! Bu nasıl mümkün olabilir? [O zamandan beri bu dosyaları kaldırdım, bu yüzden Google'ın bunu nasıl başardığını merak ediyorum.]

6
Archive.org bot'a nasıl düzgün (dis) izin verilir? İşler değişti, eğer öyleyse?
Çoğunlukla arama motorları tarafından dizine eklenmesini istemediğim bir web sitem var, ancak archive.org'da sonsuza kadar korumak istiyorum. Yani benim robots.txtbununla başlıyorum: User-agent: * Disallow: / Bugün, archive.org'a göre robots.txtbotlarına izin vermek için aşağıdakileri eklemeliyim : User-agent: ia_archiver Disallow: Ancak, birkaç yıl önce belirttiklerini zaten yapmıştım, en azından aşağıdakileri ekledim: User-agent: …

2
AJAX tarama düzenini bırakmalı mıyız?
Google şimdi AJAX tarama planını kullanımdan kaldırmıştır . Googlebot'un dinamik içeriği izlemekte bir sorunu olmadığından, artık yeni web sitelerinde uygulamayı rahatsız etmemeyi söylüyorlar. Bu ifadeye derhal güvenmeli miyiz, yoksa bir süreliğine kullanımdan kaldırılmış standarda bağlı kalmalı mıyız?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.