Ağustos 2014'ün ortalarından bu yana, birkaç Google sunucusu, web sitemdeki tüm (çok) büyük ikili dosyaları haftada bir kez indirmektedir. IP'lerin tümü Google'a ait olarak gösterilir ve şuna benzer: google-proxy-66-249-88-199.google.com. Bunlar GET istekleri ve sunucu trafiğimi büyük ölçüde etkiliyorlar.
Bundan önce, bu Google proxy IP'lerinden herhangi bir trafik görmedim, bu yüzden bu nispeten yeni bir şey gibi görünüyor. Diğer Google IP'lerinden gelen her türlü trafiği görüyorum, tümü yalnızca googlebot ve HEAD istekleri.
Tüm bu dosyaların Google tarafından yaklaşık her hafta indirilmesi dışında bu konuda endişelenmem. Kullanılan bant genişliği aşırı olmaya başlıyor.
Bu dosyaların birçoğu Windows yürütülebilir olduğu için, belki de Google'ın kötü amaçlı yazılım taramaları yapmak için indirdiğini tahmin ettim. Bu doğru olsa bile, bunun gerçekten her hafta olması gerekiyor mu?
Kasım ayında google proxy IP'lerinden gelen trafik örneği:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Güncelleme # 1: Söz konusu dosyaların sitenin robots.txt dosyasında olduğunu belirtmeyi unuttum. Robots.txt yapılandırmasının düzgün bir şekilde çalışmasını sağlamak için Google Web Yöneticisi Araçları'nda robots.txt test cihazını da kullandım; bu, dosyaların bir istisna dışında tüm Google botları için kesinlikle engellendiğini gösterir: Adsbot-Google. Bunun ne hakkında olduğundan da emin değilim. VE Google'da bazı dosyaları aradım ve bunlar arama sonuçlarında görünmez.
Güncelleme # 2: Örnek: 17 Kasım'da 05:12 ile 05:18 arasında PST, yaklaşık yarım düzine IP (tümü google-proxy), söz konusu ikili dosyaların toplamında (toplam 27) GET yaptı. 4 Kasım günü 14:09 ve 14:15 PST arasında, aynı IP'ler temelde aynı şeyi yaptı.
Güncelleme # 3: Bu noktada, bunlar geçerli Google IP'leri olmasına rağmen, Google'ın web tarama sisteminin bir parçası değil, Google'ın proxy hizmetinin bir parçası oldukları açıktır. Bunlar proxy adresleri olduğundan, GET isteklerinin nereden kaynaklandığını veya bir yerden mi yoksa birden çok yerden mi geldiklerini belirlemenin bir yolu yoktur. GET'lerin düzensiz doğasına dayanarak, yaşanmakta olan kötü bir şey olduğu görülmemektedir; Google'ın proxy hizmetini kullanırken tüm ikili dosyaları indirmeye karar veren biri olabilir. Ne yazık ki, bu hizmet tamamen belgelenmemiş gibi görünüyor, bu da yardımcı olmuyor. Site yöneticisinin bakış açısından, proxy'ler oldukça can sıkıcıdır. Onları engellemek istemiyorum, çünkü meşru kullanımları var. Ama aynı zamanda yanlış kullanılabilirler.