Sitemde arama motorlarını uzak tutmak istediğim bazı sayfalar var, bu yüzden dosyamda şu şekilde izin vermedim robots.txt
:
User-Agent: *
Disallow: /email
Yine de kısa bir süre önce Google'ın bazen arama sonuçlarında bu sayfalara bağlantılar döndürdüğünü fark ettim. Bu neden oluyor ve nasıl durdurabilirim?
Arka fon:
Birkaç yıl önce, bir akrabamın dahil olduğu bir kulüp için basit bir web sitesi yaptım. Sayfalarında e-posta bağlantıları olmasını istediler, bu nedenle, bu e-posta adreslerinin çok fazla sona ermesini önlemek için spam listeleri, doğrudan mailto:
bağlantılar kullanmak yerine, bu bağlantıları kendi sitemde çalışan basit bir yeniden yönlendirici / adres biçerdöver tuzak komut dosyası işaret etti . Bu komut dosyası, gerçek mailto:
URL'ye 301 yönlendirmesi döndürür veya şüpheli bir erişim düzeni tespit ederse, çok sayıda sahte sahte e-posta adresi ve bu tür daha fazla sayfaya bağlantı içeren bir sayfa döndürür . Meşru arama botlarını tuzaktan uzak tutmak için robots.txt
, hem yasal yeniden yönlendirici bağlantılarının hem de tuzak sayfalarının tüm alanını kapatarak yukarıda gösterilen kuralı oluşturdum .
Ancak son zamanlarda, kulüpteki kişilerden biri Google'ı kendi adıyla aradı ve ilk sayfadaki sonuçlardan biri yeniden yönlendirici komut dosyasına bir bağlantı olduğunda ve e-posta adreslerinden oluşan bir başlık izlediğinde oldukça şaşırdı tarafından benim isim. Tabii ki, hemen bana e-posta gönderdiler ve adreslerini Google'ın dizininden nasıl çıkaracaklarını bilmek istediler. Google'ın bu tür URL'leri hiç görmediği konusunda hiçbir fikrim olmadığından, görünüşe göre robots.txt
kuralımı ihlal ettiği için de çok şaşırdım .
Google'a bir kaldırma isteği göndermeyi başardım ve işe yaramış gibi görünüyor, ancak Google'ın neden ve nasıl robots.txt
bu şekilde atladığımı ve izin verilmeyen sayfaların hiçbirinin kendi sayfalarında görünmeyeceğinden nasıl emin olacağımı bilmek istiyorum. Arama Sonuçları.
Ps. Aslında bu soruyu hazırlarken aşağıya yazacağım olası bir açıklama ve çözüm buldum, ancak başka birinin aynı soruna sahip olması durumunda yine de soracağımı düşündüm . Lütfen kendi cevaplarınızı göndermekten çekinmeyin. Ayrıca diğer arama motorlarının da bunu yapıp yapmadığını ve aynı çözümlerin onlar için de işe yarayıp yaramadığını bilmek isterim.
robots.txt
dosya birinin araba yanında küçük bir "Dikkat Köpek" işaretine benzer. Bu sihir değildir ve (bir ziyaretçi açıkça aramazsa) varlığından biraz etkilenmeden mülkünüzde dolaşabilirler. Projektörlerin ve jiletli çitlerin internet eşdeğerleri vardır, ancak bunlar istediğiniz şeyserobots.txt
, değil mi?