Yalnızca Google ve Bing botlarının bir siteyi taramasına izin ver

Bir site için aşağıdaki robots.txt dosyasını kullanıyorum: Hedef, googlebot ve bingbot'un sayfa dışındaki siteye erişmesine izin vermek ve /bedven/bedrijf/*diğer tüm botların siteyi taramasını engellemektir.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Son kural User-agent: * Disallow: /tüm botların sitedeki her sayfayı taramasına izin vermiyor mu?

web-crawlers robots.txt

— Konsole
kaynak

Tüm bu görev beni ilgilendiriyor. Başka arama motorları var ve bunları kullanan herkes sitenizi görmeyecek. theeword.co.uk/info/search_engine_market , internetin% 4.99'unun arama motorlarınızda olmadığını söylüyor. Bu bir sürü insan. Daha iyi bir yöntem, trafiğinizi izlemek ve herhangi bir botun gerçekten sorunlara neden olup olmadığını görmek, sonra bunları özellikle engellemek olacaktır.

— GKFX

Hatalı çalışan bir bot, robots.txther halükarda tamamen görmezden gelebilir

— Nick T

Gerçekten kötü botlar robots.txt ile ilgilenmiyor

— Osvaldo

@NickT, gerçek dünyada, takip eden kötü davranışlı botlar robots.txtveya en azından Disallow: /kuralı sıkıntısı yoktur . Kişisel web siteniz zemine çakılıyorsa, bir bot programcısı sunucunun 256 kbit'lik bir bağlantının yanlış ucunda bir Raspberry Pi olabileceğini düşünmediğinden, bunun gibi bir battaniye dışlama yararlıdır.

— Mark

@Console neden?

— o0 '.

Yanıtlar:

Son kaydı (başlangıcı User-agent: *), kendilerini "googlebot", "google", "bingbot" veya "bing" olarak tanımlamayan tüm kibar botlar izleyecektir.
Ve evet, bu onların hiçbir şeyi taramasına izin verilmediği anlamına gelir.

Sen ihmal isteyebilirsiniz *in /bedven/bedrijf/*.
Orijinal robots.txt belirtiminde *özel bir anlamı yoktur, sadece diğerleri gibi bir karakterdir. Bu nedenle, yalnızca *URL'lerinde karakteri olan sayfaların taranmasına izin vermeyecektir .
Google bu bağlamda robots.txt spesifikasyonunu *izlemese de, "herhangi bir karakter dizisi" için joker karakter olarak kullanıldığından , bu durumda onlar için gerekli değildir : /bedven/bedrijf/*ve /bedven/bedrijf/aynı anlama gelir: yolu olan tüm URL'leri engelle başlar ile /bedven/bedrijf/.

Son olarak, bir kaydın birden fazla User-agentsatırı olabileceğinden robots.txt dosyanızı iki kayda indirgeyebilirsiniz :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— UNOR
kaynak

Google'ın robots.txt dosyasında tarama gecikmesi yönergesini yok saydığını unutmayın . Bunun yerine Google Web Yöneticisi Araçları'nda ayarlamanız gerekir.

— DisgruntledGoat

-2

Botlar, özellikle kötü olanlar, robots.txt dosyasını yok sayabilir. Yani ne yazılırsa yazılsın, bazı botlar sitenizi tarayabilir.

— Atis Luguzs
kaynak