Eğer gzip'ed içerik talep ederseniz (doğru olan kabul-kodlama: gzip başlığını kullanarak), o zaman wget'in içeriği okuyamayacağını anlıyorum. Böylece, vurduğunuz ilk sayfa için diskte tek bir gzip dosyasıyla karşılaşacaksınız, ancak başka içerik yok.
yani gget ile sıkıştırılmış içerik istemek ve sitenin tamamını aynı anda geri almak için wget kullanamazsınız.
Bence wget bu işlevi desteklemek için izin veren bir yama var ama varsayılan dağıtım sürümünde değil.
-S bayrağını eklerseniz, web sunucusunun doğru türde içerikle yanıt verip vermediğini anlayabilirsiniz. Örneğin,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
Kodlama içeriği açıkça gzip'i belirtir, ancak linux.about.com (şu anda) için,
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Metin / html döndürüyor.
Bazı eski tarayıcılarda hala gzip kodlu içerikle ilgili sorunlar olduğundan, birçok site bu siteyi yalnızca tarayıcı kimliğine göre etkinleştirir. Genellikle varsayılan olarak kapatırlar ve yalnızca tarayıcının onu destekleyebileceğini bildiklerinde kapatırlar ve genellikle bu listeye wget eklemezler. Bu, site tarayıcınız için böyle görünse bile wget'in asla gzip içeriği döndürmediğini anlamına gelir.