Yalnızca Google ve Bing botlarının bir siteyi taramasına izin ver


10

Bir site için aşağıdaki robots.txt dosyasını kullanıyorum: Hedef, googlebot ve bingbot'un sayfa dışındaki siteye erişmesine izin vermek ve /bedven/bedrijf/*diğer tüm botların siteyi taramasını engellemektir.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Son kural User-agent: * Disallow: /tüm botların sitedeki her sayfayı taramasına izin vermiyor mu?


11
Tüm bu görev beni ilgilendiriyor. Başka arama motorları var ve bunları kullanan herkes sitenizi görmeyecek. theeword.co.uk/info/search_engine_market , internetin% 4.99'unun arama motorlarınızda olmadığını söylüyor. Bu bir sürü insan. Daha iyi bir yöntem, trafiğinizi izlemek ve herhangi bir botun gerçekten sorunlara neden olup olmadığını görmek, sonra bunları özellikle engellemek olacaktır.
GKFX

8
Hatalı çalışan bir bot, robots.txther halükarda tamamen görmezden gelebilir
Nick T

8
Gerçekten kötü botlar robots.txt ile ilgilenmiyor
Osvaldo

4
@NickT, gerçek dünyada, takip eden kötü davranışlı botlar robots.txtveya en azından Disallow: /kuralı sıkıntısı yoktur . Kişisel web siteniz zemine çakılıyorsa, bir bot programcısı sunucunun 256 kbit'lik bir bağlantının yanlış ucunda bir Raspberry Pi olabileceğini düşünmediğinden, bunun gibi bir battaniye dışlama yararlıdır.
Mark

2
@Console neden?
o0 '.

Yanıtlar:


24

Son kaydı (başlangıcı User-agent: *), kendilerini "googlebot", "google", "bingbot" veya "bing" olarak tanımlamayan tüm kibar botlar izleyecektir.
Ve evet, bu onların hiçbir şeyi taramasına izin verilmediği anlamına gelir.

Sen ihmal isteyebilirsiniz *in /bedven/bedrijf/*.
Orijinal robots.txt belirtiminde *özel bir anlamı yoktur, sadece diğerleri gibi bir karakterdir. Bu nedenle, yalnızca *URL'lerinde karakteri olan sayfaların taranmasına izin vermeyecektir .
Google bu bağlamda robots.txt spesifikasyonunu *izlemese de, "herhangi bir karakter dizisi" için joker karakter olarak kullanıldığından , bu durumda onlar için gerekli değildir : /bedven/bedrijf/*ve /bedven/bedrijf/aynı anlama gelir: yolu olan tüm URL'leri engelle başlar ile /bedven/bedrijf/.

Son olarak, bir kaydın birden fazla User-agentsatırı olabileceğinden robots.txt dosyanızı iki kayda indirgeyebilirsiniz :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

5
Google'ın robots.txt dosyasında tarama gecikmesi yönergesini yok saydığını unutmayın . Bunun yerine Google Web Yöneticisi Araçları'nda ayarlamanız gerekir.
DisgruntledGoat

-2

Botlar, özellikle kötü olanlar, robots.txt dosyasını yok sayabilir. Yani ne yazılırsa yazılsın, bazı botlar sitenizi tarayabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.