Wget için alternatifler


13

Bir sunucuda temelde bir grup HTML sayfası, resim ve ses olan bir sitem var.

Bu sunucuya şifremi kaybettim ve orada saklanan her şeyi almam gerekiyor. Sayfa sayfa gidip her şeyi kaydedebiliyorum ama sitenin 100'den fazla sayfası var.

OSX kullanıyorum. Kullanmaya çalıştım wgetama sunucu bunu engelliyor düşünüyorum.

Bu içeriği almak için kullanabileceğim bir alternatif var mı?


Sunucuya fiziksel erişiminiz varsa, tek kullanıcı moduna önyükleme yapın ve şifrenizi kurtarın. debuntu.org/…
spuder

Yanıtlar:


15

Sunucu wget'i engelliyorsa, büyük olasılıkla http başlığının "User-agent:" alanı temelinde yapıyor, çünkü ilk etapta bilmenin tek yolu bu. IP'nizi de engelliyor olabilir, bu durumda farklı yazılımlar yardımcı olmaz veya bir dizi isteğin ne kadar hızlı olduğuna bağlı olarak otomasyonu tanımlayan bir şema olabilir (çünkü gerçek kişiler 3.2 saniyede 100 sayfaya göz atmazlar) . Bunu yapan kimseyi duymadım ama bu mümkün.

Ayrıca wget yavaşlatmak için bir yol duymadım, ancak kullanıcı-aracı alanı parodi bir yolu var:

wget --user-agent=""

Man sayfası damla göre "Kullanıcı-aracı:" tamamen, çünkü zorunlu değildir. Sunucu bundan hoşlanmıyorsa --user-agent="Mozilla/5.0"hangisinin yeterince iyi olması gerektiğini deneyin .

Tabii ki, "sunucunun bunu engellediğini düşünüyorum" neden daha iyi açıkladıysanız yardımcı olacaktır. Wget bir şey söylüyor mu yoksa sadece mola veriyor mu?


Ah evet! Teşekkürler. Ben wget yardım özledim. Şimdi çalışıyor!!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog

5
wgetsorgular arasında beklemek, hızı veya indirilen miktarı sınırlamak için bir dizi seçenek vardır. infoAyrıntılar için sayfayı kontrol edin .
Stéphane Chazelas

6

Genellikle httrackbir siteden web içeriği indirmek / yansıtmak için kullanılır .

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

Çalıştıktan sonra yerel ve göz atılabilir bir dizin yapısına sahip olursunuz. Örneğin:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

İndirilirken aşağıdaki çıktı türünü göreceksiniz:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Arka plana alınabilir ve / veya durdurulabilir ve daha sonra devam ettirilebilir. Bu, buzdağının özellikleri açısından sadece ucu. Ayrıca, bir indirme ayarlamak ve ilerledikçe izlemek için bir GUI vardır.

httrackWeb sitesinde ve googling ile kapsamlı belgeler var .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.