Aslında, tüm bir siteyi Wget ile taramak istiyorum, ancak ASLA diğer varlıkları (ör. Görüntü, CSS, JS, vb.) İndirmem gerekiyor. Yalnızca HTML dosyalarını istiyorum.
Google aramaları tamamen işe yaramaz.
İşte denediğim bir komut:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Sitemiz hibrit düz PHP ve CMS'dir. Yani, HTML "dosyalar" olabilir /path/to/page
, /path/to/page/
, /path/to/page.php
, veya /path/to/page.html
.
Ben bile dahil ettik -R js,css
ama yine de dosyaları indirir, SONRA onları reddeder (bant genişliği, CPU ve sunucu yükünün anlamsız israfı!).
Length: 558 [text/css]
. İstemediğim dosyaları fark ediyorum. Eğer başlık geri dönmezse isteği durdurabilirsem text/html
sevinirim.