Google arama sonuçları neden robots.txt dosyasında izin verilmeyen sayfalar içeriyor?

18

Sitemde arama motorlarını uzak tutmak istediğim bazı sayfalar var, bu yüzden dosyamda şu şekilde izin vermedim robots.txt:

User-Agent: *
Disallow: /email

Yine de kısa bir süre önce Google'ın bazen arama sonuçlarında bu sayfalara bağlantılar döndürdüğünü fark ettim. Bu neden oluyor ve nasıl durdurabilirim?

Arka fon:

Birkaç yıl önce, bir akrabamın dahil olduğu bir kulüp için basit bir web sitesi yaptım. Sayfalarında e-posta bağlantıları olmasını istediler, bu nedenle, bu e-posta adreslerinin çok fazla sona ermesini önlemek için spam listeleri, doğrudan mailto:bağlantılar kullanmak yerine, bu bağlantıları kendi sitemde çalışan basit bir yeniden yönlendirici / adres biçerdöver tuzak komut dosyası işaret etti . Bu komut dosyası, gerçek mailto:URL'ye 301 yönlendirmesi döndürür veya şüpheli bir erişim düzeni tespit ederse, çok sayıda sahte sahte e-posta adresi ve bu tür daha fazla sayfaya bağlantı içeren bir sayfa döndürür . Meşru arama botlarını tuzaktan uzak tutmak için robots.txt, hem yasal yeniden yönlendirici bağlantılarının hem de tuzak sayfalarının tüm alanını kapatarak yukarıda gösterilen kuralı oluşturdum .

Ancak son zamanlarda, kulüpteki kişilerden biri Google'ı kendi adıyla aradı ve ilk sayfadaki sonuçlardan biri yeniden yönlendirici komut dosyasına bir bağlantı olduğunda ve e-posta adreslerinden oluşan bir başlık izlediğinde oldukça şaşırdı tarafından benim isim. Tabii ki, hemen bana e-posta gönderdiler ve adreslerini Google'ın dizininden nasıl çıkaracaklarını bilmek istediler. Google'ın bu tür URL'leri hiç görmediği konusunda hiçbir fikrim olmadığından, görünüşe göre robots.txtkuralımı ihlal ettiği için de çok şaşırdım .

Google'a bir kaldırma isteği göndermeyi başardım ve işe yaramış gibi görünüyor, ancak Google'ın neden ve nasıl robots.txtbu şekilde atladığımı ve izin verilmeyen sayfaların hiçbirinin kendi sayfalarında görünmeyeceğinden nasıl emin olacağımı bilmek istiyorum. Arama Sonuçları.

Ps. Aslında bu soruyu hazırlarken aşağıya yazacağım olası bir açıklama ve çözüm buldum, ancak başka birinin aynı soruna sahip olması durumunda yine de soracağımı düşündüm . Lütfen kendi cevaplarınızı göndermekten çekinmeyin. Ayrıca diğer arama motorlarının da bunu yapıp yapmadığını ve aynı çözümlerin onlar için de işe yarayıp yaramadığını bilmek isterim.

google-search robots.txt

— Ilmari Karonen
kaynak

1

"ve Google'ın robots.txt dosyamı nasıl atlattığı" Bunu zaten bildiğinizi tahmin ediyorum (veya yeryüzünde nasıl bir site kurabilirdiniz) ama bazı şanssız aptal dolaşırsa ... robots.txtdosya birinin araba yanında küçük bir "Dikkat Köpek" işaretine benzer. Bu sihir değildir ve (bir ziyaretçi açıkça aramazsa) varlığından biraz etkilenmeden mülkünüzde dolaşabilirler. Projektörlerin ve jiletli çitlerin internet eşdeğerleri vardır, ancak bunlar istediğiniz şeyse robots.txt, değil mi?

— Part Atışı

25

Görünüşe göre, robots.txttaradıkları diğer sayfalardan bu URL'lere bağlantılar varsa Google kasıtlı olarak dizinlerinde izin verilmeyen URL'leri içeriyor . Web Yöneticisi Araçları yardım sayfalarını alıntılamak için :

"Google, robots.txt tarafından engellenen sayfaların içeriğini taramıyor veya dizine eklemese de, URL'leri web'deki diğer sayfalarda bulursak yine de dizine ekleyebiliriz. Sonuç olarak, sayfanın URL'si ve potansiyel olarak diğer siteye bağlantılarda bağlantı metni gibi herkese açık bilgiler veya Açık Dizin Projesi'nden (www.dmoz.org) başlık Google arama sonuçlarında görünebilir. "

Görünüşe göre Google, bir Disallowyönergeyi , sayfayı dizine eklemeye değil, taramayırobots.txt yasaklamak olarak yorumlamaktadır . Sanırım bu benim için avukatlık kurallarına uymasa bile teknik olarak geçerli bir yorum.

Gelen bu görüşme yazıda , Google'dan Matt Cutts biraz daha arka plan verir ve bunu neden için makul bir sondaj açıklama vermez:

"İlk günlerde çok sayıda popüler web sitesi hiç taranmak istemedi. Örneğin, eBay ve New York Times herhangi bir arama motoruna izin vermedi veya en azından Google'ın herhangi bir sayfayı taramasına izin vermedi. Kongre Kütüphanesi, bir arama motoruyla tarama yapmanıza izin verilmediğini söyleyen çeşitli bölümlere sahipti ve bu nedenle, birisi Google'a geldiğinde ve eBay'e yazdığında eBay'i taramadık ve eBay'i iade edemedik, Bu yüzden, ortaya çıkmaya karar verdiğimiz uzlaşma, robots.txt dosyasından sizi taramıyorduk, ancak gördüğümüz URL referansını döndürebilirdik. "

Bu sayfaların her ikisinde de önerilen çözüm , dizine eklenmesini istemediğiniz sayfalara bir noindexmeta etiket eklemektir . ( X-Robots-TagHTTP başlığı HTML olmayan sayfalar için de çalışmalıdır. Yine de yönlendirmeler üzerinde çalışıp çalışmadığından emin değilim.) Paradoksal olarak, bu, Googlebot'un bu sayfaları taramasına izin vermeniz gerektiği anlamına gelir ( robots.txttamamen kaldırarak veya Googlebot için ayrı, daha izin veren bir kurallar kümesi ekleyerek), aksi takdirde meta etiketi ilk etapta göremez.

Ben meta etiketi ve her iki göndermek için benim yönlendirme / örümcek tuzağı senaryoyu kaydetmiştiniz X-Robots-Tagdeğerle başlığını noindex,nofollowskinTenimde komut dosyasının URL'sini taramasını ve izin Googlebot'u robots.txt. Google sitemi yeniden endekslediğinde işe yarayıp yaramadığını göreceğiz.

— Ilmari Karonen
kaynak

5

Bu, Google'ın (ve iyi botların) bu sayfaları taramasını ve içeriklerini okumasını engellese de, formun bağlantısı varsa SERP'lerde salt URL bağlantısı gösterebildikleri doğrudur:

Google SERP'lerinde yalnızca URL bağlantısı

Gördüğünüz gibi, başlık veya açıklama yok, kelimenin tam anlamıyla sadece URL. Doğal olarak bu tür sonuçlar, siz açıkça aramadığınız sürece genellikle SERP'lerden çıkarılır.

Cevabınızda belirttiğiniz gibi, URL'nin SERP'lerde hiç görünmesini istemiyorsanız, robotlara izin vermeniz, ancak bir noindex meta etiketi eklemeniz gerekir.

— Bay Beyaz
kaynak