Her şeye izin vermek için robots.txt nasıl yapılandırılır?


116

robots.txtGoogle Web Yöneticisi Araçlarındaki My aşağıdaki değerleri gösterir:

User-agent: *
Allow: /

Bu ne demek? Bu konuda yeterince bilgim yok, bu yüzden yardımınızı arıyorum. Tüm robotların web sitemi taramasına izin vermek istiyorum, bu doğru yapılandırma mı?


İzin ver tüm web tarayıcıları tarafından anlaşılmaz, bunun yerine reddetme: (yani: 'den sonra url olmadan) kullanın. Daha güvenli (bkz: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Yanıtlar:



60

Her botun her şeyi taramasına izin vermek istiyorsanız, bunu robots.txt dosyanızda belirtmenin en iyi yolu budur:

User-agent: *
Disallow:

DisallowAlanın boş bir değere sahip olduğuna dikkat edin , yani spesifikasyona göre :

Herhangi bir boş değer, tüm URL'lerin alınabileceğini gösterir.


Sizin yönteminiz de ( Allow: /yerine ile Disallow:) çalışır, ancak orijinal robots.txt spesifikasyonunun birAllow parçası değildir , bu nedenle tüm botlar tarafından desteklenmez (yine de Googlebot gibi pek çok popüler olanı destekler ). Bununla birlikte, tanınmayan alanların göz ardı edilmesi gerekir ve tanımayan botlar için sonuç bu durumda yine de aynı olacaktır: eğer hiçbir şeyin taranması yasak değilse (ile ) her şeyin taranmasına izin verilir. Ancak, resmi olarak (orijinal spesifikasyona göre) bu geçersiz bir kayıttır çünkü en az bir alan gereklidir:AllowDisallow
Disallow

Bir kayıtta en az bir Disallow alanı bulunmalıdır.


17

Bunun oldukça eski bir soru olduğunu ve oldukça iyi cevapları olduğunu anlıyorum. Ama işte tamlık adına iki sentim.

Resmi belgelere göre , robotların sitenize erişmesi için tam erişime izin vermenin dört yolu vardır.

Temiz:

@Unor tarafından belirtildiği gibi izin verilmeyen segmentli bir genel eşleştirici belirtin. Yani /robots.txtböyle görünüyorsun.

User-agent: *
Disallow:

Hack:

/robots.txtİçinde içerik olmayan bir dosya oluşturun . Her tür için herkese izin veren varsayılan Bots.

Umrumda değil yolu:

Hep birlikte yaratmayın /robots.txt. Yukarıdaki ikisi ile tam olarak aynı sonuçları vermelidir.

Çirkin:

Gönderen Meta etiketleri için robotlar dokümantasyon , Sen izin sitenizdeki tüm sayfalarınızda aşağıdaki meta etiketi kullanabilirsiniz Botsbu sayfaların dizine gerekiyordu değildir, know.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Bunun sitenizin tamamına uygulanabilmesi için, bu meta etiketi tüm sayfalarınıza eklemeniz gerekecektir. Ve bu etiket kesinlikle sayfanızın HEADetiketinin altına yerleştirilmelidir . Bu meta etiket hakkında daha fazla bilgiyi burada bulabilirsiniz .


Robots.txt ve Wordpress kötü bir kombinasyondur, çünkü WordPress sanal bir robots.txt oluşturur. WordPress'in ürettiği şeyden memnun değilseniz.
Jesper

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.