Yanıtlar:
Bir amacı robots.txt
dosyasına tarayıcılarının tutmaktır dışarı web sitenizin belirli kısımlarının. Bir tanesine sahip olmamak, tüm içeriğinizin dizine eklenmesine neden olmalıdır.
Bu Meta sorusundaki ilk yorumdan çıkan sonuç, robots.txt
dosyanın orada bulunmasından ziyade, var olduğu ancak erişilemez olduğu (herhangi bir nedenle). Bu , web tarayıcılarının bazı sorunlara neden olmasına neden olabilir , ancak spekülasyon.
Ben yok robots.txt
blogumda (öz Wordpress kurulum barındırılan) ve bu dizine alınmış.
Robots.txt, arama motorları arasında kesinlikle gönüllü bir kongredir; görmezden gelmekte veya istedikleri herhangi bir şekilde uygulamakta özgürdürler. Bununla birlikte, ara sıra örümceğin e-posta adreslerini veya benzerlerini aramasını engelleyerek, hepsine saygı duyuyorlar. Onun biçim ve mantık çok basit ve (yalnızca çünkü varsayılan kural izin olduğunu dis izin verin). Robots.txt içermeyen bir site tamamen dizine eklenir.
Kayıt yaptırdığım düzinelerce alanda, bazıları 1994'e kadar geriye dönük robots.txt'im olmadı ve google / yahoo, vb.
Kişisel web sitem bile google'dan günde 150-200 kullanıcı alıyor ve bir robots.txt dosyasına sahip değil.
(Soruları yanıtlamak arasındaki üç dakikalık duraklama gereksinimini sevin. Sonra robot captcha'yı alacağım. Bazen sadece yardımcı olmaya çalışmaya değmez.)
Site sınırlama olmaksızın dizine eklenecek. örümcekler bulduklarını takip eder. Bunu istediğini sanmıyorum. Baidu gibi bazı örümcekler bu konuda çok agresif olabilirler. Hatta javascript kodlarındaki URL'leri bile değerlendirebilir.
İşte detaylı bilgi. http://www.robotstxt.org/orig.html
ps. ayrıca web sunucunuzda birçok 404 log olacaktır. Ayrıca günlükleri okurken dezavantaj. & favicon.ico dosyasını koymayı unutma. tüm tarayıcıların her sayfada talep ettiği başka bir aptal dosya.
(Yorum eklemek için bir yol bulamadım ama) Ayrıca, bir robots.txt dosyasının bulunmamasının, bunun için bir Site Haritası sağlayamayacağınız anlamında da bir sorun olduğunu eklemek isterim. Site Haritası’nın yalnızca Robots.txt dosyasında belirtilmiş olarak veya arama motorlarına doğrudan gönderim yoluyla yerleştirildiğini unutmayın; ancak ikincisi, hızlı bir şekilde sadece hızlı bir şekilde bulmak yerine tek tek yapmanız gereken anlamına gelir. o.