Google CDN dosyalarını taramaz


11

Google Web Yöneticisi Araçları'nın web sitemde çok sayıda engellenmiş kaynak bildirdiğini fark ettim. Şu anda tüm "engellenen kaynaklar", Cloudfront CDN'den hizmet verdiğim .css, .js ve resimlerdir (.jpg, .png).

Test etmek ve google'ın bu dosyaları neden taramadığını ve "kaynak bloğu" durumunu bildirmediğini anlamaya çalışarak çok zaman harcadım.

Şu anda bu dosyaları çeşitli ana bilgisayar adlarından sunuyoruz: cdn1.example.com, cdn2.example.com,…

cdn1, cdn2 ve diğerleri bulut adı dağıtım adına CNAME'dir.

Test: Doğrudan bulut dağıtımını (CNAME yok) kullanmaya çalıştım, ancak sorun devam ediyor.

Şu anda benim robots.txt şöyle görünüyor:

# Google AdSense
User-agent: Mediapartners-Google
Disallow:

#Google images
User-agent: Googlebot-Image
Disallow: /

User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /

Bir örnek sayfada engellenen dosya örnekleri:

  • cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css

  • cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/responsive .css

  • cdn5.example.com/wp-content/themes/magazine/images/nobg.png

  • cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png

  • cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg

  • cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg

Hatta robots.txt dosyasında her şeye izin vermeye çalıştım ama hep aynı sonuca sahibim.

Ben de Amazon CloudFront ayarlarına dikkatle baktım ve ilişkili olabilecek hiçbir şey görmedim (Ben kullanmıyorum ve hiç seçeneği kullanmadım: "Görüntüleyici Erişimini Kısıtla (İmzalı URL'leri veya İmzalı Çerezleri Kullan)".

Şu anda bunu incelemek için çok zaman harcadım ve başka fikrim yok.

Birisi Googlebot'un Amazon CloudFront'ta barındırılan dosyaları taramasının engellenmesinin bir nedenini düşünebilir mi?


Bu "engellenen kaynaklar" ın HTTP yanıt başlıklarını incelediniz mi? GWT tam olarak hangi hatayı bildiriyor? Robots.txt tarafından engellendiyse bunu rapor etmelidir.
MrWhite

Robots.txt dosyanızla ilgili küçük yorum ... URL'ler varsayılan olarak önekle eşleştiğinden, *"önek" URL'sinin sonuna asla sahip olmanıza gerek yoktur. /test*ile aynıdır /test.
MrWhite

Merhaba, başlıkları inceleyemiyorum, çünkü googlebot'un ne elde ettiğini bilmiyorum. "Googlebot bu sayfa için tüm kaynakları alamadı. İşte bir liste:" ve ardından "Neden": "Engellendi" ile CDN tarafından barındırılan tüm dosyaların (js, css ve resimler) listesi.
Mart'ta tonlot

Ben "getir ve Render" istediğimden ben de render stilleri ve görüntüleri eksik olduğunu görüyorum ....
tonelot

Ayrıca, robots.txt sözdizimindeki not için teşekkür ederiz.
Mart'ta tonlot

Yanıtlar:


7

Yani, çözüm Amazon bulutunun benim de değerlendirdiği robots.txtve bir şekilde google'dan farklı sözdizimi kurallarını kullandığı görülüyor .

Benim çalışan sürümü robots.txtaşağıdaki gibidir:

User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /uncategorized
Disallow: /page
Disallow: /category
Disallow: /author
Disallow: /feed
Disallow: /tags
Disallow: /test

Bunun daha önce olduğu gibi aynı işlevleri yerine getirmediğini söylemek çok önemli bir not. Aslında, tüm boş satırları, joker karakterleri ve "izin ver" direktiflerini çıkardım. Yani sonuç aynı değil ... ama bence benim için yeterince yakın. Örneğin, sorgu dizesinde iletildiğinde etiket sayfalarını hariç tutmaz ...

Üç önemli not:

  1. robots.txtBununla test ediyorsanız , her yineleme için bulut dağıtımında geçersiz kılmayı unutmayın . Sadece son sürümün size sunulduğunu kontrol etmek yeterli değildir.

  2. robot.txtAmazon Cloudfront tarafından anlaşılan sözdiziminin bir tanımını hiçbir yerde bulamadım. Yani, deneme yanılma yöntemiydi.

  3. Sonuçları test etmek için google web yöneticisi ve mobil uyumlu test cihazının "getir ve oluştur" aracını kullanın ( https://www.google.com/webmasters/tools/mobile-friendly/ )

Cloudfront'un neden onayladığımı ve değerlendirdiğini anlamıyorum robots.txt. Bu dosya benimle ve siteme gelen tarayıcılarla bir "anlaşma" dır. Amazon'un ortada bir işi yok. Benim ile uğraşmak robots.txtsadece aptalca.

Cloudfront'un robots.txtsözdizimi ikinci olarak tahmin edebileceği aklıma hiç gelmedi .


2

Bir grupta robots.txt oluşturun.

Bulutlu dağıtımınız için başka bir kaynak oluşturun.

Grupunuzun önceliğini web sitenizden daha yüksek bir değere ayarlayın.

Cloudfront'ta sitenizin robots.txt dosyasını geçersiz kılın.

Yukarıdakileri yaptıktan sonra Google, sitenizi tararken robots.txt sitelerini okuyacak ve cdn'nizdeki bağlantıları izlerken farklı robots.txt dosyasını görecektir.


1

Google, ana sitenin kökündeki bir robots.txt kullanarak harici kaynakların dizine eklenmesini engellemez. Bir alt etki alanı kullanarak, bir cdn veya başka bir dosya harici etki alanı olarak sınıflandırılır, bu nedenle içeriği engellemenin tek yolu CDN'nin kendisi tarafından sunulan dosyada bir başlık yanıtı veya cdn veya alt etki alanında bir robots.txt kullanmaktır. .

Kullanımı:

#Google images
User-agent: Googlebot-Image
Disallow: /

Yalnızca yerel görüntüleri engellemeniz durumunda, CDN'de de aynısını yapmanız gerekir.

Şans onun bir başlık yanıt sorun ve CDN dosyalardan birinde bir 'CURL' yapmanız gerekir. Şöyle bir şey olmalı:

HTTP/1.0 200 OK
Cache-Control: max-age=86400, public
Date: Thu, 10 May 2012 07:43:51 GMT
ETag: b784a8d162cd0b45fcb6d8933e8640b457392b46
Last-Modified: Tue, 08 May 2012 16:46:33 GMT
X-Powered-By: Express
Age: 7
Content-Length: 0
X-Cache: Hit from cloudfront
X-Amz-Cf-Id: V_da8LHRj269JyqkEO143FLpm8kS7xRh4Wa5acB6xa0Qz3rW3P7-Uw==,iFg6qa2KnhUTQ_xRjuhgUIhj8ubAiBrCs6TXJ_L66YJR583xXWAy-Q==
Via: 1.0 d2625240b33e8b85b3cbea9bb40abb10.cloudfront.net (CloudFront)
Connection: close

Dikkat edilmesi gerekenler:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: googlebot: noindex

Merhaba, Cevabınız için teşekkürler. Ancak benim sorunum görüntülerin dizine eklenmesinin nasıl önleneceği değil. Karışıklığı önlemek için bunu robots.txt dosyasından çıkardım ve sonuçlar aynı. Googlebot, bulut ortamında barındırdığım dosyalarda engellendiğinden şikayet ediyor ve nedenini bilmiyorum. Başka fikir var mı? Yoru dikkatiniz için teşekkürler, miguel
tonelot 28:15

Sen anladın özledim, biliyorum ki engellenmesini istemiyorum ... bu yüzden neden alt yanıtın bir X-robots etiketi yapmıyor olduğundan emin olmak için check the robots.txt on your CloudFront distributionsöyledim , ayrıca bunu da söyledim! CDN'de indekslenen görüntüleri engellemenin tek yolu yine x-robots-tag ve CDN'nin kendisinde bir robots.txt'dir.
Simon Hayter

1

Sorunu öğrendim: CloudFront, robots.txt dosyasını okuyor ve içeriğin sunulmasını engelliyor, ancak sanırım robotların ne kadar farklı olması gerektiğini ayrıştırıyor.

Örneğin, robots.txt dosyasında aşağıdaki içerik:

Disallow: */wp-contents/ Allow: */wp-contents/themes/

Googlebot kendisini aldığında dizine ekler; CloudFront okuduğunda, 'İzin Ver' direktifini dikkate almaz ve içindeki herhangi bir şeye hizmet etmesini yasaklar */wp-contents/themes/.

Kısa cevap: CloudFront dağıtımınızdaki robots.txt dosyasını kontrol edin, sorun olabilir. Düzeltilmiş bir sürümle geçersiz kılın ve güncelleyin ve çalışması gerekir!


Cloudfront ne robots.txt dosyasını "okumuyor", içeriklerini "dikkate almıyor" veya hiçbir şeyi "engellemiyor". Ne unutmayın Eğer sen bir nesne getirme zaman CloudFront aldığım size birileri onların kenar önceki bir önbelleğe eğer alacağı başka kenar yerden sunulan ya da geç seninki yaptığından daha neler hakkında hiçbir şey anlatır. Ayrıca, önde gelen joker karakterler muhtemelen beklenmedik davranışlar için bir reçetedir, çünkü robotlar "standart" hariç tutma iyi standartlaştırılmamıştır.
Michael - sqlbot 28.05.2015

"CloudFront robots.txt dosyasını okuyor" - Bu, CloudFront'un kendisinde barındırılan bir robots.txt dosyası mı? URL'ler soruda belirtilenlere benziyorsa, "önde gelen joker karakter" de gereksiz görünebilir.
MrWhite

Selam. Kesinlikle cloudfront robots.txt dosyamı okuyor. Ve kesinlikle google ile aynı sözdizimini kabul etmiyor. Ben zaten robots.txt alarak test ve ben sonuç vermedi çünkü cloudfront geçersiz kılma sonuçları gördüm. En son sürüm sunulduğu için gerekli olmadığı varsayıldı. Her değişikliğin tamamlanması sonsuza kadar süren bir geçersiz kılma isteği gerektirdiğinden testler uzun zaman alır. çalışan bir sürümü ile birkaç saat içinde geri geleceğim. Neden bu tür bir "akıllılık" gerekli olduğunu bilmiyorum ... ama orada ve sanırım olmamalı. miguel
tonelot

Apache'mde bulunan aynı robots.txt, bir cloudfront var. Deneysel olarak belirledim.
snagnever
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.