Google hala şu anda 404 bulunmayan eski, sahte test sayfalarımı tarar ve dizine ekler


19

Sitemi örnek sayfalar ve verilerle (lorem ipsum vb.) Ayarladım ve Google bu sayfaları taradı. Tüm bu sayfaları sildim ve gerçek içerik ekledim, ancak web yöneticisi araçlarında, Google'ın bu sayfaları taramaya çalıştığı 404 hata almaya devam ediyorum. Onları "çözüldü olarak işaretle" olarak ayarladım, ancak bazı sayfalar yine 404 olarak geliyor.

Ayrıca, sitemde Google'da arama yaptığımda bu örnek sayfaların birçoğu hala listeleniyor. Nasıl kaldırılır. Bu alakasız sayfaların derecelendirmeme zarar verdiğini düşünüyorum.

Aslında tüm bu sayfaları silmek ve sitemin yeni bir sayfa olarak dizine eklenmesini sağlamak istedim ama mümkün değil mi? (Bir site haritası gönderdim ve "Google Gibi Getir" i kullandım.)

Yanıtlar:


17

Tamam. Her şey sırayla. 404'ünüzü sabit olarak işaretlemeyin . Aslında sorunu uzatıyorsunuz. Google, vazgeçmeden önce birkaç kez 404 döndüren bir sayfayı getirmeye çalışır. Bunun nedeni, 404 hatasının 410 hatasının bir sayfanın gittiğini bildirdiği geçici bir durumu göstermesidir . Dolayısıyla, bir 404'ü sabit olarak işaretlediğinizde , aslında Google'a tekrar denemesini söyler ve böylece eleme sürecini baştan başlatırsınız.

Bu sayfaları 404 bir süre bekletin, Google onları aramayı bırakacak ve sayfaları dizinden bırakacaktır. Zaman alacaktır, ancak 410 hatadan kısa, bu en kolay yoldur. 410 hatası işlemi daha hızlı hale getirir, ancak 410 hatası sunmak daha zordur ve 404 varsayılanı daha kolay ve doğal bir çözüm haline getirir.

Bekleyebilirseniz kaldırılan sayfalarınız yaklaşık 30-60 gün içinde kaybolacaktır. Google'ın sayfalarınızı ne sıklıkta ziyaret ettiğine bağlıdır. Daha uzun sürebilir, ancak 404'ler bulunduğunda, Google ilk önce siteyi kontrol etmeyi sever, ardından kaç tane 404'ün bulunduğuna bağlı olarak sitenizi daha agresif bir şekilde örter.

Bir site haritası kullanmak aslında dizinle ilgili herhangi bir sorunu çözmez. Sadece arama motorları için hayatı kolaylaştırır. Hiçbir zaman, herhangi bir sitenin sahip olduğu tüm sayfaların sonu olarak kabul edilmez. Bir arama motoru bir site haritasını okur ve yine de site haritasında listelenmeyen sayfalar bulursa, bu sayfaları dizine eklemeye devam eder.

Mantıklı bir seçenek ise, bu sayfaları robots.txt dosyanızda listelemektir. Çok fazla yoksa (yapabileceğiniz bir şey anlamına gelir ve robots.txt dosyanız çok uzun olmaz), bu daha hızlı bir çözüm olacaktır. Aksi takdirde, sadece beklemek ve 404 hatalarının kendi kendine sona ermesine izin verirdim.

Son bir kelime. İyi olacaksın. Gerçekten mi. Sabırlıysanız, hepsi sizin için çok iyi çalışacaktır.


1
Robots.txt dosyasına 404 sayfa eklemek kötü bir uygulama gibi geliyor. Sadece tarayıcıyı karıştırır ve çok fazla gereksiz temizlik işlemi yapar.
Dorus

@Dorus Hiç de değil. Bir diğer ilgisi yoktur. Robots.txt dosyasına herhangi bir sayfa eklediğinizde, sayfa dizinden çok hızlı bir şekilde kaldırılır. Ayrıca, arama motoru dosyaya ve bu nedenle hiçbir 404 erişmeye çalışacağız.
closetnoc

1
Söylediğiniz gibi, robots.txt dosyasına eklerseniz arama motoru sayfaya erişmeye çalışmaz, ancak sayfa yine de var olur. Bir gün robotlardan kaldırırsanız dizinleme geri döner. 404 veya 410'un işi yapmasına izin vermek daha iyi bir uygulamadır.

@closetnoc Ne demek istediniz it is harder to present a 410 error?
Evgeniy

@Evgeniy Varsayılan olarak verilen bir 404 hatasıdır (en azından Apache ve daha eski IIS). 410 hatasının kasıtlı olması gerekir ve bunun gerçekleşmesi için biraz çalışma gerektirir. Teknik olarak, zor bir görev değildir, ancak çok fazla olmasa da biraz uzmanlık gerektirir. Alkış !!
closetnoc

8

Bir sayfayı yayınladıktan sonra Google bunu asla unutmaz. 15 yıl önce sayfalarını kaldırdığım sitelerim var. Googlebot hâlâ geri dönüyor ve bu sayfaları ara sıra kontrol ediyor.

Sayfaların arama motorunda görünmesini önlemek için 404 hatalarınız işi yapar. Googlebot'un bir sonraki taramasından sonra Google'ın sayfayı dizinden kaldırması bir gün sürebilir. Daha hızlı kaldırılmasını istiyorsanız, bunun yerine "410 Gone" durumunu döndürün. Google, bir gün beklemek yerine 410 sayfayı taradıktan hemen sonra kaldırır. Google, web yöneticilerinin Matt Cutts tarafından açıklandığı gibi kendilerini ayağa vurmalarını önlemek için 404 sayfayı hemen kaldırmaz :

404'lerle birlikte, sanırım 401'ler ve belki 403'lerle birlikte, bir sayfa görürsek ve 404 alırsak, bu sayfayı tarama sisteminde 24 saat koruyacağız, bu yüzden biraz bekleriz ve belki de geçici 404, belki de gerçekten bir sayfa bulunamadı.

Düşünebileceğiniz başka bir yöntem de yönlendirme. 301 eski bir sayfayı yenisine yönlendirmek, sayfanın Google Web Yöneticisi Araçları'nda hata olarak görünmesini engeller. Bu, yalnızca eski sayfaların her biri için yeni bir sayfa varsa mümkündür. Tüm test sayfalarını ana sayfanıza yönlendirmek yardımcı olmaz, çünkü Google ana sayfaya yönlendirmeleri o raporda görünecek olan "yumuşak 404" hataları olarak kabul eder.

Web Yöneticisi Araçları'nda 404 hatası olması size zarar vermez. Sitenizde bazı 404 hatalarının olması, Googlebot’un sitenizin doğru yapılandırıldığını göstermesi nedeniyle size yardımcı olabilir. Google'ın John Mueller (Web Yöneticisi Araçları ve Site Haritaları üzerinde çalışan) , Web Yöneticisi araçlarında görünen 404 hataları hakkında şunları söylemelidir :

YARDIM! SİTEM 939 CRAWL HATASI VAR !! 1

Bu tür bir soruyu haftada birkaç kez görüyorum; yalnız değilsiniz - birçok web sitesinde tarama hataları var.

  1. Geçersiz URL'lerdeki 404 hataları, sitenizin dizinine veya sıralamasına hiçbir şekilde zarar vermez . 100 veya 10 milyon olması fark etmez, sitenizin sıralamasına zarar vermezler. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. Bazı durumlarda, tarama hataları web sitenizdeki veya CMS'nizdeki meşru bir yapısal sorundan kaynaklanabilir. Nasıl söylersin? Tarama hatasının kaynağını iki kez kontrol edin. Sitenizde, sayfanızın statik HTML'sinde bozuk bir bağlantı varsa, bu her zaman düzeltilmeye değer. (teşekkürler + Martino Mosna )
  3. “Açıkça kırılan” korkak URL'ler ne olacak? Siteniz gibi algoritmalarımız, örneğin JavaScript'te yeni URL'ler keşfetmeye çalışarak daha fazla harika içerik bulmaya çalışabilirler. Bu "URL'leri" dener ve bir 404 bulursak, bu harika ve beklenen bir durumdur. Sadece önemli bir şeyi kaçırmak istemiyoruz (buraya aşırı eklenmiş Googlebot meme'yi ekleyin). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Web Yöneticisi Araçları'ndaki tarama hatalarını düzeltmenize gerek yoktur. “Sabit olarak işaretle” özelliği, yalnızca oradaki ilerlemenizi takip etmek istiyorsanız size yardımcı olmak içindir; web arama kanalımızdaki hiçbir şeyi değiştirmez, bu yüzden ihtiyacınız yoksa bunu göz ardı etmekten çekinmeyin. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Web Yöneticisi Araçları'ndaki tarama hatalarını, birkaç faktöre göre öncelikli olarak listeleriz. Tarama hatalarının ilk sayfası açıkça alakasızsa, muhtemelen başka sayfalarda önemli tarama hataları bulamazsınız. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Web sitenizdeki tarama hatalarını "düzeltmeye" gerek yoktur. 404'leri bulmak normaldir ve sağlıklı, iyi yapılandırılmış bir web sitesinden beklenir. Eşdeğer yeni bir URL'niz varsa, URL'ye yönlendirmek iyi bir uygulamadır. Aksi takdirde, sahte içerik oluşturmamalısınız, ana sayfanıza yönlendirmemelisiniz, robots.txt dosyasının bu URL'lere izin vermemesi gerekir - tüm bunlar sitenizin yapısını tanımamızı ve düzgün bir şekilde işlememizi zorlaştırır. Biz buna “soft 404” hataları diyoruz. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Açıkçası - bu tarama hataları önem verdiğiniz URL'ler, belki de Site Haritası dosyanızdaki URL'ler için gösteriliyorsa, hemen harekete geçmeniz gereken bir şeydir. Googlebot önemli URL'lerinizi tarayamazsa, arama sonuçlarımızdan çıkarılabilir ve kullanıcılar da bunlara erişemeyebilir.

1
Bu benim deneyimim olmadı. Google yeni bir dizin ister ve sayfaları oldukça hızlı bir şekilde siler. Açıkladığınız şeye benzediğini gördüğüm, geçmişte Google API'yı kullanan diğer sitelerin verilerini yenilemediği ve eski çalışmanızı göstereceği yerdir. Bunlar genellikle spam içerikli / önemsiz sitelerdir ve bu alıntılar görünebilir / kalabilir / kaybolabilir / yeniden görünebilir. Bunun için başlıca sebebim, Google API'nın eskiden oldukça karışık olması ve artık spam verilerinin çok daha eski olmamasıdır, çünkü özellikle geçmişte spam gönderdiyseniz daha yeni verilerin gelmesi çok zordur.
closetnoc

1
Googlebot, "bodrum katında bir kutu URL bulduk" dediğim bir tarama moduna sahip. Bu tarama modunda, hiçbiri yıllardır kullanmadığınız sitenizden arka arkaya bin URL tarayabilir. URL'lerde, kazıyıcı sitelerden bile gelen bağlantı yoktur. Uzunluk sırasına göre taranır, önce daha kısa URL'ler taranır.
Stephen Ostermiller

Belki doğru olabilir. Google açıkça büyük bir veridir. Herhangi bir büyük veritabanında gürültü var. Bu kaçınılmaz. Yaşadığınız şey bu olabilir. Çeşitli veritabanlarının uzlaştırılması mümkündür. Mantıklı. Ancak, sizi önemsiz sitelerin eski bağlantılar ve eski alıntılarla sadece 2 saat görünebileceği konusunda da uyarıyorum. Bunu her gün görüyorum. Onlar öncelikle Rusya ve Polonya'da. Bu siteler yerel arama motorlarını oyun oynamak için kullanılır, ancak herhangi bir siteye gelen trafiği etkiler ve Google tarafından alınabilir. Her gün veritabanımda bunlardan yaklaşık 12 tane alıyorum. Genel olarak, herhangi bir dönem için 12 siteden sadece 1'i kalır.
closetnoc

939 hatası nedir?
Greg Nickoloff

939 hata sayısıdır, bir tür hata değildir.
Stephen Ostermiller

5

Google büyük olasılıkla bu sayfaları uzun süre taramaya devam edecektir. Web yöneticileri hata yapar veya siteler herhangi bir nedenle kullanılamaz duruma gelir, bu nedenle Google 404'ün ilk işaretinde içeriği kaldırmaz.

Alternatif olarak bunun yerine 410 Gone da kullanabilirsiniz. Bu, sayfanın tam anlamıyla "gittiğini" ve geri gelmediğini gösteren çok daha güçlü (yani kasıtlı) bir sinyaldir. Bu, Google'ın sayfayı SERP'lerden daha erken kaldırmasını isteyebilir.

Onları "çözüldü olarak işaretle" olarak ayarladım, ancak bazı sayfalar yine 404 olarak geliyor.

Yalnızca sayfayı geri koyduysanız "çözülür". Çözülmüş olarak işaretlerseniz ve sayfa mevcut değilse tarama hatası basitçe tekrar eder. Sayfa mevcut değilse, olduğu gibi bırakın.

Orijinal 404'ler arama sıralamanıza zarar vermez. GWT'deki 404 raporu öncelikle sizin yararınıza olacak, böylece işlerin ne zaman yanlış gittiğini görebilirsiniz ... sayfalar bulunamadığında, bulunması gerekir!

SERP'lerdeki bu alakasız sayfalar belki de kullanıcılarınız için küçük bir sıkıntıdır, ancak lorem ipsum'unuzu bulmak için ne arıyorlar ?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.