Google neden web sitemden ikili dosyalar indiriyor ve bant genişliği kullanıyor?

Ağustos 2014'ün ortalarından bu yana, birkaç Google sunucusu, web sitemdeki tüm (çok) büyük ikili dosyaları haftada bir kez indirmektedir. IP'lerin tümü Google'a ait olarak gösterilir ve şuna benzer: google-proxy-66-249-88-199.google.com. Bunlar GET istekleri ve sunucu trafiğimi büyük ölçüde etkiliyorlar.

Bundan önce, bu Google proxy IP'lerinden herhangi bir trafik görmedim, bu yüzden bu nispeten yeni bir şey gibi görünüyor. Diğer Google IP'lerinden gelen her türlü trafiği görüyorum, tümü yalnızca googlebot ve HEAD istekleri.

Tüm bu dosyaların Google tarafından yaklaşık her hafta indirilmesi dışında bu konuda endişelenmem. Kullanılan bant genişliği aşırı olmaya başlıyor.

Bu dosyaların birçoğu Windows yürütülebilir olduğu için, belki de Google'ın kötü amaçlı yazılım taramaları yapmak için indirdiğini tahmin ettim. Bu doğru olsa bile, bunun gerçekten her hafta olması gerekiyor mu?

Kasım ayında google proxy IP'lerinden gelen trafik örneği:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Güncelleme # 1: Söz konusu dosyaların sitenin robots.txt dosyasında olduğunu belirtmeyi unuttum. Robots.txt yapılandırmasının düzgün bir şekilde çalışmasını sağlamak için Google Web Yöneticisi Araçları'nda robots.txt test cihazını da kullandım; bu, dosyaların bir istisna dışında tüm Google botları için kesinlikle engellendiğini gösterir: Adsbot-Google. Bunun ne hakkında olduğundan da emin değilim. VE Google'da bazı dosyaları aradım ve bunlar arama sonuçlarında görünmez.

Güncelleme # 2: Örnek: 17 Kasım'da 05:12 ile 05:18 arasında PST, yaklaşık yarım düzine IP (tümü google-proxy), söz konusu ikili dosyaların toplamında (toplam 27) GET yaptı. 4 Kasım günü 14:09 ve 14:15 PST arasında, aynı IP'ler temelde aynı şeyi yaptı.

Güncelleme # 3: Bu noktada, bunlar geçerli Google IP'leri olmasına rağmen, Google'ın web tarama sisteminin bir parçası değil, Google'ın proxy hizmetinin bir parçası oldukları açıktır. Bunlar proxy adresleri olduğundan, GET isteklerinin nereden kaynaklandığını veya bir yerden mi yoksa birden çok yerden mi geldiklerini belirlemenin bir yolu yoktur. GET'lerin düzensiz doğasına dayanarak, yaşanmakta olan kötü bir şey olduğu görülmemektedir; Google'ın proxy hizmetini kullanırken tüm ikili dosyaları indirmeye karar veren biri olabilir. Ne yazık ki, bu hizmet tamamen belgelenmemiş gibi görünüyor, bu da yardımcı olmuyor. Site yöneticisinin bakış açısından, proxy'ler oldukça can sıkıcıdır. Onları engellemek istemiyorum, çünkü meşru kullanımları var. Ama aynı zamanda yanlış kullanılabilirler.

google proxy bandwidth

— boot13
kaynak

İyi soru. Ben oy verdim! Kesinlikle robots.txt dosyasını kullanarak bunları engellemek istersiniz. Google neden çalıştırılabilir dosya indiriyor? Teoriniz iyi bir teori gibi görünüyor, ama bir şekilde, frekans yüzünden emin değilim. Çok garip görünüyor. Listemde google-proxy-66-102-6-104.google.com olmamasına rağmen, bunlar geçerli Googlebot IP adresleri gibi görünüyor.

— closetnoc

Söz konusu dosyaların sitenin robots.txt dosyasında olduğunu belirtmeyi unuttum. Bkz. Yukarıdaki 1. Güncelleme.

— boot13

Kafam karıştı. Her an bir yüklenicim var, bu yüzden bunu düşünmem gerekecek. Google, alan adları ve IP adresi tahsisleri ile komik şeyler yapıyor ve barındırma da dahil olmak üzere çeşitli Google hizmetleriyle bazı örtüşmeler oldu ve diğerleri, Google IP adres alanında insanların botlarının görünebileceği, ancak Googlebot IP adresini kullanarak görmedim Uzay. Google'ın, güvenlik sistemlerinin bu IP adreslerine düzgün bir şekilde güvenebilmesi için örtüşmesiz veya çok az örtüşen çeşitli arama işlemleri için açık alan ayırmasını isterdim.

— closetnoc

Bu soru için biraz araştırma yaptım ve bazı ilginç inceler buldum, örneğin:

1. Sahte bir tarayıcı mı? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Kullanıcının sonucu:

Bu 'tarayıcılar' tarayıcı değildir, ancak Google arama motorunda kullanılan canlı web sitesi önizlemesinin bir parçasıdır.

Web sitemden birini önizlemede göstermek için bunu denedim ve evet, orada engellenen bir IP mesajı aldı.

Kullanıcıların web sitenizin önizlemesini görüntüleyebilmesini istiyorsanız, bu 'tarayıcıları' kabul etmeniz gerekir.

Diğerlerinin söylediği gibi: "söz konusu URL'nin kök alanı google.com'dur ve bu kolayca taklit edilemez".

Sonuç: Bu bot'lara veya tarayıcılara güvenebilirsiniz ve google aramada bir önizleme göstermek için kullanılır.

Canlı önizlemenin dosyalarınızı indirmediğini biliyoruz, bu yüzden 2. soruya geçelim.

2. Google hizmetlerinin bir parçası mı? -> Bu Google proxy sahte bir tarayıcı mı: google-proxy-66-249-81-131.google.com?

Sonuç:

Bazı kişilerin Google hizmetlerini (Google translate, Google mobile vb.) Web sitelerine (okullarda vb.) Erişmek (okullarda vb.) İçin değil, aynı zamanda DOS saldırıları ve benzer etkinlikler için de kullandığını düşünüyorum.

Bu konuda tahminim yukarıdakiyle aynı. Birisi dosyalarınıza erişmek için çevirmen gibi bir Google hizmeti kullanmaya çalışıyor.

Dediğiniz gibi, dosyalar robots.txt tarafından zaten engelleniyorsa, bu yalnızca manuel bir istek olabilir.

DÜZENLEME: OP Yorumunu kapsamlı olarak ele almak için:

Tarayıcılar robots.txt dosyasını yoksayabilir mi? Evet. İşte bu liste Google Google vekiller kullanarak diğer botlar olabilen araçlarının, değiştiğini sanmıyorum.

Kötü bir bot olabilir mi? Evet, bunun için tavsiye ederim:

.htaccess yasaklaması:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Bu kod IP'leri veya Kullanıcı aracılarını yasaklayabilir.

Veya burada bulunan bir Örümcek Tuzağı kullanın

Bunun manuel bir istek olduğunu düşünüyorum.

— nunorbatista
kaynak

Bu cevapları da gördüm, ancak benim özel sorunumu ele almıyorlardı. Google Proxy'nin bir şekilde kötüye kullanıldığından haklı olabilirsiniz, bu durumda büyük olasılıkla tamamen engelleyeceğim, ki bu biraz topal. Robots.txt anlayışım, tarayıcı yazılımının onu yok saymayı seçebileceğidir. Dost botların onurlandırması gerekiyor ve çoğu bunu yapıyor, ancak proxy'ler (sanırım) farklı.

— boot13

@ boot13 Yine de dikkatli ol. Bunlar geçerli Googlebot IP adresleridir. Dolayısıyla, bloke ederseniz, yalnızca bu dosyalar için engelleyin. Apache kullandığınızı varsayarsak, bunu .htaccess ile yapabilmeniz gerekir. Ancak bu başka sorunlara neden olabilir, bu nedenle iletiler için Google Web Yöneticisi Araçları'na dikkat ettiğinizden emin olun.

— closetnoc

@ boot13 Cevabımı güncelledim. Erişimlerin aynı gün / saatte yapıldığını veya rastgele olup olmadığını kontrol edebilir misiniz?

— nunorbatista

@nunorbatista: rastgele görünüyorlar. Sorumu birkaç kez güncelledim.

— boot13

@nunorbatista: bkz. yukarıdaki 3. Güncelleme. Googlebot veya başka bir tarayıcı değil, Google'ın proxy hizmeti. Google'ın canlı site önizlemesi ile ilgili değildir. Belki bir veya daha fazla kişi Google Proxy aracılığıyla ikili dosyaları indirmiş, belki de yerel bir engel veya kısıtlamadan kurtulmak için görünüyor. Trafik bir bot olmadığı için Örümcek tuzağı önerisinin yardımcı olması pek olası değildir. Google Proxy IP'lerinin ikili dosyaları içeren klasöre erişmesini engellemek istiyorum; Ben htaccess kodunu kullanmayı deneyeceğim, ama tabii ki downloader her zaman başka bir proxy'ye geçebilir, bu yüzden anlamsız olabilir.

— boot13