Alan adı tarafından reddedilen robotlar hala arama sonuçlarında listeleniyor

9

Dolayısıyla, arama yapmayan tüm sitelerimize bir robots.txt dosyası uyguladık ( bir web sitesini gerçek zamanlı Google arama sonuçlarından nasıl hariç tutabilirim? Veya başka bir benzer soru).

Bununla birlikte, arama terimleri yeterince spesifikse alan adının kendisi sonuçlar aracılığıyla bulunabilir. Bunun bir örneğini burada bulabilirsiniz . Bağlantıdan görebileceğiniz gibi, alanın kendisi bulunabilir (içerik önbelleğe alınmaz, ancak alan adı listelenir). Ayrıca, site:hyundaidigitalmarketing.com3 sonuç ile bir arama yapmak gerekir. Geri bağlantıların kontrol edilmesi de birkaç şey sağlar, ancak açık bir şekilde onları engelleyemem (bağlamda bağlantıya izin verilir) veya bunların nasıl ele alınacağını kontrol edemem (ana bilgisayara nofollow, noindex eklemesini söyleyemem).

Şimdi, bunun ciddi bir durum olduğunu biliyorum, ancak şirketlerimin müşterileri bunu yapıyor. Aslında, alanlarımız oldukça iyi, bu yüzden görünüşte keyfi aramalar bile ilgili sonuçları ortaya çıkarıyor. Şimdi, bunun nasıl / neden olduğu hakkında bir rapor yazmalıyım.

Bu yüzden, ya eksik olduğumu anlamama ya da neler olduğunu anlamama yardımcı olmak için harika Stack Exchange ağına dönüyorum. Endüstri makalelerine bağlantılar son derece faydalıdır, ancak verebileceğiniz her şey kesinlikle harika. Gelecekte bunun cevabını vermek için ödüllere elimden gelenin en iyisini sunmayı amaçlıyorum.

Edit: Ben biraz daha yanıt almak umuduyla bu soruya bir ödül açtım. Ayrıca aşağıda kendi araştırmamın sonuçlarını verdim.

seo robots.txt

— Kevin Peno
kaynak

5

Bu bilgilerin kaynağını aramam gerekecek ama görünüşe göre robots.txt bir sayfanın dizine eklenmesini engellemeyecek. Ancak HTTP x-robots-tag başlığı görünüşte işe yarıyor.

Apache kullanıyorsanız bir .htaccess dosyasında bu satırı kullanarak sayfaları toplu olarak engelleyebilirsiniz:

Header set x-robots-tag: noindex

Bunu deneyin ve neler olduğunu görün.

Düzenle

( Bir kaynak buldum. Hatırladığım değil ama işe yarıyor).

— John Conde
kaynak

Merhaba, cevap için teşekkürler. Bu, yukarıda örnek olarak kullanılan sitenin html çıktısında zaten uygulanmış olan robot meta etiketinden ne şekilde farklıdır? Bildiğim kadarıyla bu sadece bir yedek olarak hizmet vermektedir, böylece her sayfaya koymanız gerekmez.

— Kevin Peno

@Kevin, Etkililik açısından aynı olmalılar . Söylediğiniz gibi bunu yönetmek daha kolay olurdu.

— John Conde

4

Bence Matt Cutts bundan bahsetti. Eğer hafızam doğruysa, bağlantı ile ilgisi vardı. Daha fazlası: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=tr

Bunları Google kaldırma aracıyla kaldırabilirsiniz.

— Joe
kaynak

Hepsini şurada görebilirsiniz: site: gmpackageguide.com Çok fazla URL yok. Robotlara izin verilmeden önce dizinde olduklarını varsayıyorum. Onları kaldırırım.

— Joe

Gelecekte, web tasarım insanlarına her zaman dizin, web sayfası baş bölümünde hiçbir iz içermemeleri talimatını verirdim. Kullandığınız CMS'nin bunu yapabileceğinden şüpheleniyorum.

— Joe

@Joe - katılıyorum, ancak noindex, followherhangi bir PageRank'in oluşabilecek geri bağlantılardan dağıtılmasını tavsiye ederim .

— Mike Hudson

@Joe & @Mike, Bilgi için teşekkürler. Ancak, siteyi al: hyundaidigitalmarketing.com. Bu siteyi bir yıl önce kendim başlattım. Hem bir robots.txt dosyası hem de meta üstbilgi içerir. Ancak, Google'da site:hyundaidigitalmarketing.comveya terimler için arama yapan bir form gördüğünüz gibi hyundai digital marketing, alanın kendisi ilk ve en iyi sonuç olarak görünmeye devam edecektir. Bunu önlemem gerek.

— Kevin Peno

Ayrıca, bir arama links:hyundaidigitalmarketing.comgeri bağlantıları gösterir. Biçimlendirme geri bağlantılarını engelleyemiyorum veya kontrol edemiyorum ve geçerli olabilirler. Eğer siteye link vermek buna neden oluyorsa bunu nasıl / niçin anlamalıyım ki bunu üstlerime açıklayabilirim. Umarım bu sorumu biraz daha iyi açıklar.

— Kevin Peno

3

Konuyla ilgili araştırmalarıma dayanarak, verilerin endekslenmesini ve önbelleğe alınmasını önlemek için% 100 garantili bir yol olmadığını, ancak oldukça dar bir şekilde gelebilirsiniz (artan bot trafiği ile uğraşmak istediğinizi varsayarak). Bilgileri şu şekilde yorumladım.

Robots.txt dosyasının, site genelindeki robotlar bilgisini tanımlamak için kullanıldığı ve sayfaya özel ayrıntılar için meta etiketlerin kullanıldığı düşünülebilir. Bence arkasındaki ruh tam olarak bu ama pratikte durum böyle değil.

Bir robots.txt dosyası oluşturma

Bütün büyük arama sağlayıcıları ile bu eserler SERP görünmesini içerik önlemek için, ama yok değil önlemek endeksleme. Bu, botların sayfalarınızı taramasını da önler, böylece tüm robot meta etiketleri (aşağıya bakın) da yok sayılır. Bu nedenle, 2'yi birlikte kullanamazsınız ve bu nedenle, endekslemeyi önlemek istiyorsanız bir robots.txt dosyası kullanmamalısınız.

Yan not: Google, Noindex: /robots.txt dosyasında kullanımını desteklemektedir , ancak belgesizdir (ne zaman kırılacağını kim bilir) ve bunun başkaları için işe yarayıp yaramadığı bilinmemektedir.

Her şeyi önlemek için HTTP üstbilgilerini veya HTML META etiketlerini kullanın

Robots.txt dosyasının aksine, robots meta etiketi (ve HTTP Üstbilgisi) yaygın olarak desteklenir ve şaşırtıcı bir şekilde zengin özelliklere sahiptir. Her sayfada ayarlanacak şekilde tasarlanmıştır, ancak X-Robots-Tagüstbilginin yakın zamanda benimsenmesi site çapında ayar yapmayı kolaylaştırır. Bu yöntemin tek dezavantajı, botların sitenizi taramasıdır. Bu, nofollowtüm botlara gerçekten saygı gösterilmemekle birlikte sınırlandırılabilir nofollow.

Bu eski moda blog yazısında bir ton bilgi buldum . Orijinal sürümü 2007 idi, ancak o zamandan beri birçok bilgi daha yeni özellikler olduğu için düzenli olarak güncelleniyor gibi görünüyor.

Özetle, adresinin HTTP üstbilgisini göndermelisiniz X-Robots-Tag: noindex,nofollow,noodp,noydir. İşte nedeninin dökümü:

nofollowbot trafiğini düşük tutarak sitenizde taranan sayfa sayısını sınırlamalıdır. * noindexmotorlara sayfayı dizine eklememelerini söyler.
Şimdi, noindexbunun yeterli olabileceğini varsayabilirsiniz . Ancak, noindexsitenize bağlantı veren diğer siteler nedeniyle sitenizin dizine eklenebileceğini söyleseniz bile buldum . Y'den ortak site bağlantılarını önlemenin en iyi yolu! Dizin ( noydir) ve Açık Dizin ( noodp).
HTTP üstbilgisini kullanmak, robot verilerini dosyalara, görüntülere ve diğer HTML olmayan dosyalara da uygular! YAŞASIN!

Bu, vakaların% 99'unda işe yarayacaktır. Bununla birlikte, bazı durumlarda bazı sağlayıcılar tarafından dizine eklenmenin hala mümkün olduğunu unutmayın . Google tamamen saygı duyduğunu iddia ediyor noindex, ancak şüphelerim var.

Son olarak, dizine eklenmiş veya zaten dizine eklenmişse, bilgilerinizin dizine eklenmiş olmasının tek yolu, sitenin / URL'nin kaldırılmasını istemek için her sağlayıcıdan çeşitli araçları izlemektir. Açıkçası bu, muhtemelen Google Alerts gibi bir şey kullanarak siteleri / sayfaları izlemek isteyeceğiniz anlamına gelir (teşekkürler @Joe).

— Kevin Peno
kaynak

3

Ben temel sorun bu arama motorları siteye bir giriş noktası vermek ve onları haberdar yapmak gibi siteye geri bağlantıları olduğunu düşünüyorum. Bu nedenle, site için bir açıklama göstermeyecek olsalar da, sonuç için en uygun eşleşme olduğunu düşünüyorlarsa URL'yi gösterebilirler.

@Joe yayınlanan bir bağlantılı bu makaleyi okuyun: Matt Cutts google uzak tutmak

Anahtar bit:

Bunun oldukça iyi bir nedeni var: 2000 yılında Google'da başladığımda, birkaç yararlı web sitesinde (eBay, New York Times, California DMV) herhangi bir sayfa getirilmesini yasaklayan robots.txt dosyaları vardı. Şimdi size soruyorum, birisi [california dmv] sorgusunu yaptığında arama sonucu olarak neyi döndürmemiz gerekiyor? İlk sonuç olarak www.dmv.ca.gov adresini döndürmezsek oldukça üzülürdük. Ancak unutmayın: Bu noktada www.dmv.ca.gov adresinden sayfa getirmemize izin verilmedi. Çözüm, doğru bağlantı olduğuna dair yüksek düzeyde güven duyduğumuzda taranmamış bağlantıyı göstermekti. Bazen Open Directory Project'ten bir açıklama bile alabiliriz, böylece sayfayı getirmeden bile kullanıcılara çok fazla bilgi verebiliriz.

Yaptığınız araştırma, sessizce iyi şeyler de içeriyor ve @john ve @joe tarafından verilen yanıtların her ikisi de alakalı. Aşağıda, arama motorlarını engelleme konusunda daha fazla rehberlik sağlayan bir bağlantı ekledim. Siteyi tamamen engellemeyi düşünebileceğim tek yol, içerik görüntülenmeden önce tamamlanması gereken sitenin önüne bir tür şifre koruması eklemek olacaktır.

SEOMoz aramada görünmeme konusunda ipuçları

— Matthew Brookes
kaynak

Tartışmaya eklediğiniz için teşekkürler. Parola koruması, taramayı önlemek için iyi çalışır, ancak dizine eklemeyi önlemez. Robots.txt bunu durdurmak için iyi bir iş çıkardığından, şifre korumasının tek avantajı meraklı gözlerin onu bulmasını engellemesidir. Ne yazık ki, çoğu içerik "korunacak" kadar duyarlı değildir ve yarattığı kullanılabilirlik konularını kesinlikle garanti etmez. [devamı ...]

— Kevin Peno

Araştırmalarımda en yararlı bulduğum bir benzetme, telefon rehberleriyle karşılaştırmaktı. Arama motorları telefon rehberi ise ve listelenmemesini istiyorsanız, o zaman hiç listelenmemesini isteyebilirsiniz ve buna saygı duymalıdırlar. Ne yazık ki, arama motorları diğer şirketlerin temas satacağı şirketlere daha çok benziyor ve karşılığında ödeme yapmak / istemek isteyen herkese veriliyor.

— Kevin Peno

@Kevin ben ne diyorsun ne yazık ki ben tamamen arama motorları şu anda çalışmak için umut yolu ile kaldırılması mümkün olacağını sanmıyorum en iyi ihtimalle bu durumda bir URL listeleme olduğunu sanmıyorum.

— Matthew Brookes

Bunu şimdi anlıyorum (araştırma sonrası). Ayrıca, lütfen herhangi bir olumsuz ışık altında cevabınıza yorumumu almayın. Konuya eklediğinizi takdir ediyorum, sadece böyle bir çözüm uygulamanın eksilerini eklemeyi, ayrıca sanırım biraz konu dışı bir şaka eklemeyi yanıtlıyordum. : P

— Kevin Peno