Özyinelemeli wget ile indir


32

Aşağıdaki wget komutuyla ilgili bir sorunum var:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Bağlantılı belgelerin tümünü orijinal web’de özyinelemeli olarak indirmelidir ancak yalnızca iki dosyayı indirir ( index.htmlve robots.txt).

Bu web'in özyinelemeli indirmesini nasıl sağlayabilirim ?

Yanıtlar:


40

wgetvarsayılan olarak , arama motorlarında olduğu gibi sayfaları taramak için robots.txt standardını onurlandırır ve archive.org için, tüm / web / alt dizinine izin vermez. Geçersiz kılmak için -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

Teşekkür ederim. Her bağlantıyı yalnızca bir kez saklamak için bir seçenek var mı? Belki de 10daha az sayıya düşmeliyim, ama tahmin etmek zor. Şimdi bir dosya varsa introduction.html, introduction.html.1, introduction.html.2ve ben daha çok süreci sona erdi.
xralf

Ve bağlantılar internete yönlendiriyor. Mı --mirrorbağlantılar dosya sistemine doğrudan seçeneği?
xralf

1
@ xralf: evet, kullanıyorsunuz -nd, bu yüzden farklı s'ler index.htmlaynı dizine yerleştirilir ve bunlar olmadan -kbağlantıları yeniden yazmazsınız .
Ulrich Schwarz

12
$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

URL içeriğini yinelemeli olarak indirir.

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

Diğer bazı yararlı seçenekler:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

-l 0 - remove recursion depth (which is 5 by default)+1
Dani
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.