Konuyla ilgili araştırmalarıma dayanarak, verilerin endekslenmesini ve önbelleğe alınmasını önlemek için% 100 garantili bir yol olmadığını, ancak oldukça dar bir şekilde gelebilirsiniz (artan bot trafiği ile uğraşmak istediğinizi varsayarak). Bilgileri şu şekilde yorumladım.
Robots.txt dosyasının, site genelindeki robotlar bilgisini tanımlamak için kullanıldığı ve sayfaya özel ayrıntılar için meta etiketlerin kullanıldığı düşünülebilir. Bence arkasındaki ruh tam olarak bu ama pratikte durum böyle değil.
Bir robots.txt dosyası oluşturma
Bütün büyük arama sağlayıcıları ile bu eserler SERP görünmesini içerik önlemek için, ama yok değil önlemek endeksleme. Bu, botların sayfalarınızı taramasını da önler, böylece tüm robot meta etiketleri (aşağıya bakın) da yok sayılır. Bu nedenle, 2'yi birlikte kullanamazsınız ve bu nedenle, endekslemeyi önlemek istiyorsanız bir robots.txt dosyası kullanmamalısınız.
Yan not: Google, Noindex: /
robots.txt dosyasında kullanımını desteklemektedir , ancak belgesizdir (ne zaman kırılacağını kim bilir) ve bunun başkaları için işe yarayıp yaramadığı bilinmemektedir.
Her şeyi önlemek için HTTP üstbilgilerini veya HTML META etiketlerini kullanın
Robots.txt dosyasının aksine, robots meta etiketi (ve HTTP Üstbilgisi) yaygın olarak desteklenir ve şaşırtıcı bir şekilde zengin özelliklere sahiptir. Her sayfada ayarlanacak şekilde tasarlanmıştır, ancak X-Robots-Tag
üstbilginin yakın zamanda benimsenmesi site çapında ayar yapmayı kolaylaştırır. Bu yöntemin tek dezavantajı, botların sitenizi taramasıdır. Bu, nofollow
tüm botlara gerçekten saygı gösterilmemekle birlikte sınırlandırılabilir nofollow
.
Bu eski moda blog yazısında bir ton bilgi buldum . Orijinal sürümü 2007 idi, ancak o zamandan beri birçok bilgi daha yeni özellikler olduğu için düzenli olarak güncelleniyor gibi görünüyor.
Özetle, adresinin HTTP üstbilgisini göndermelisiniz X-Robots-Tag: noindex,nofollow,noodp,noydir
. İşte nedeninin dökümü:
nofollow
bot trafiğini düşük tutarak sitenizde taranan sayfa sayısını sınırlamalıdır. * noindex
motorlara sayfayı dizine eklememelerini söyler.
- Şimdi,
noindex
bunun yeterli olabileceğini varsayabilirsiniz . Ancak, noindex
sitenize bağlantı veren diğer siteler nedeniyle sitenizin dizine eklenebileceğini söyleseniz bile buldum . Y'den ortak site bağlantılarını önlemenin en iyi yolu! Dizin ( noydir
) ve Açık Dizin ( noodp
).
- HTTP üstbilgisini kullanmak, robot verilerini dosyalara, görüntülere ve diğer HTML olmayan dosyalara da uygular! YAŞASIN!
Bu, vakaların% 99'unda işe yarayacaktır. Bununla birlikte, bazı durumlarda bazı sağlayıcılar tarafından dizine eklenmenin hala mümkün olduğunu unutmayın . Google tamamen saygı duyduğunu iddia ediyor noindex
, ancak şüphelerim var.
Son olarak, dizine eklenmiş veya zaten dizine eklenmişse, bilgilerinizin dizine eklenmiş olmasının tek yolu, sitenin / URL'nin kaldırılmasını istemek için her sağlayıcıdan çeşitli araçları izlemektir. Açıkçası bu, muhtemelen Google Alerts gibi bir şey kullanarak siteleri / sayfaları izlemek isteyeceğiniz anlamına gelir (teşekkürler @Joe).