Bir web sitesinin robots.txt dosyası yoksa ne olur?

2

Eğer robots.txtdosya şeyler olarak kabul edilir nasıl bir web sitesi, kök dizininde eksik:

site hiç dizine eklenmedi
site herhangi bir kısıtlama olmadan indekslenir

Mantıklı bana göre ikinci olmalı. Bu soruya atıfta bulunmak istiyorum .

— lazer
kaynak

4

Bir amacı robots.txtdosyasına tarayıcılarının tutmaktır dışarı web sitenizin belirli kısımlarının. Bir tanesine sahip olmamak, tüm içeriğinizin dizine eklenmesine neden olmalıdır.

Bu Meta sorusundaki ilk yorumdan çıkan sonuç, robots.txtdosyanın orada bulunmasından ziyade, var olduğu ancak erişilemez olduğu (herhangi bir nedenle). Bu , web tarayıcılarının bazı sorunlara neden olmasına neden olabilir , ancak spekülasyon.

Ben yok robots.txtblogumda (öz Wordpress kurulum barındırılan) ve bu dizine alınmış.

— ChrisF
kaynak

5

Robots.txt, arama motorları arasında kesinlikle gönüllü bir kongredir; görmezden gelmekte veya istedikleri herhangi bir şekilde uygulamakta özgürdürler. Bununla birlikte, ara sıra örümceğin e-posta adreslerini veya benzerlerini aramasını engelleyerek, hepsine saygı duyuyorlar. Onun biçim ve mantık çok basit ve (yalnızca çünkü varsayılan kural izin olduğunu dis izin verin). Robots.txt içermeyen bir site tamamen dizine eklenir.

— BMDan
kaynak

1

Kayıt yaptırdığım düzinelerce alanda, bazıları 1994'e kadar geriye dönük robots.txt'im olmadı ve google / yahoo, vb.

Kişisel web sitem bile google'dan günde 150-200 kullanıcı alıyor ve bir robots.txt dosyasına sahip değil.

(Soruları yanıtlamak arasındaki üç dakikalık duraklama gereksinimini sevin. Sonra robot captcha'yı alacağım. Bazen sadece yardımcı olmaya çalışmaya değmez.)

— karmawhore
kaynak

Daha fazla itibar puanı kazandıkça, sınırlar daha az müdahaleci olur, bu yüzden sadece iyi cevaplar sağlamaya devam edin.

— ChrisF

Geçen gün 46'daydım, bir soruyu cevaplayana ve yüksek karma kullanıcısı ile aynı fikirde değildim. Karma tabanlı bir sistemin sosyal yönünü sevmek zorundasınız.

— karmawhore

1

robots.txt tamamen isteğe bağlıdır. Bunlardan birine sahipseniz, standartlara uygun tarayıcılar buna saygı duyacak, eğer sizde yoksa, HTML-META öğelerinde ( Wikipedia ) izin verilmeyen her şey taranabilir.

— weeheavy
kaynak

1

Site sınırlama olmaksızın dizine eklenecek. örümcekler bulduklarını takip eder. Bunu istediğini sanmıyorum. Baidu gibi bazı örümcekler bu konuda çok agresif olabilirler. Hatta javascript kodlarındaki URL'leri bile değerlendirebilir.

İşte detaylı bilgi. http://www.robotstxt.org/orig.html

ps. ayrıca web sunucunuzda birçok 404 log olacaktır. Ayrıca günlükleri okurken dezavantaj. & favicon.ico dosyasını koymayı unutma. tüm tarayıcıların her sayfada talep ettiği başka bir aptal dosya.

— risyasin
kaynak

1

(Yorum eklemek için bir yol bulamadım ama) Ayrıca, bir robots.txt dosyasının bulunmamasının, bunun için bir Site Haritası sağlayamayacağınız anlamında da bir sorun olduğunu eklemek isterim. Site Haritası’nın yalnızca Robots.txt dosyasında belirtilmiş olarak veya arama motorlarına doğrudan gönderim yoluyla yerleştirildiğini unutmayın; ancak ikincisi, hızlı bir şekilde sadece hızlı bir şekilde bulmak yerine tek tek yapmanız gereken anlamına gelir. o.

— Carlos Aguilar Mares
kaynak