Bir blog'u wget ile yansıtın


9

Örneğin www.example.com, bir blog yansıtmaya çalışıyorum wget.

Wget aşağıdaki seçeneklerle kullanıyorum (kabuk değişkenleri doğru şekilde değiştirildi):

wget -m -p -H -k -E -np \
    -w 1 \
    --random-wait \
    --restrict-file-names=windows \
    -P $folder \
    -Q${quota}m \
    -t 3 \
    --referer=$url \
    -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
    -e robots=off \
    -D $domains
    -- $url

Blog, diğer alanlarda bulunan resimler içeriyor.

Ben belirtmiş olsa da -p(indirme sayfası varlıklarını bağlantılı) seçeneğini ben açıkça her etki alanını belirlemek sürece bu görüntüler karşıdan yüklenirken değil -Dseçeneği.

Bu -Dseçeneği atlarsam, wget dışarıdaki her bağlantıyı takip www.example.comeder ve tüm interneti indirir.

Aynı etki alanında ikamet ediyor olsun ya da olmasın, her etki alanını açıkça belirtmek zorunda kalmadan, wgetyalnızca altındaki her bağlantıyı takip etmek www.example.comve her sayfanın gerekli varlıklarını indirmek mümkün müdür ?


Buna da iyi bir cevap bulmayı çok isterim. Aynı durumla karşılaştım ve bunu yapan tek bir uyandırma çağrısı bulamadım. wget -N -E -H -k -K -pİlk olarak kullandım ve eksik bağlantılı görüntüleri almak için bir komut dosyası buldum .
lemonsqueeze

5
Göre bu bir , httrack bunun için bir katil. Bir dahaki sefere wget yerine bir şans vereceğim.
lemonsqueeze

(Eksi sayfa öğelerini) blogunuzu varsayarsak hem kaldırmayı deneyin, birden çok etki yayılan değildir -D $domainshem de -H. Bu olmadan -Halan adınızda kalmalı, ancak farklı bir alan adında olsalar bile doğrudan sayfa öğelerini almalısınız.
blubberdiblub

Yanıtlar:


1

Hayır, tek yol -D veya --domains = [etki alanı listesi] (virgülle ayrılmış liste biçiminde) kullanarak takip etmesini istediğiniz alanları belirtmektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.