Bir dosya sunucusundan dosya listesi nasıl indirilir?


10

Http://www.apache.org/dist/httpd/binaries/ gibi bir dosya sunucusundaki dosyaların listesini nasıl indirebilirim ?

Ben wget kullanabilirsiniz varsayalım ama sonra da tüm bağlantıları ve html dosyasını almaya çalışır. Bunu başarmak için daha iyi bir araç var mı?


sadece sorunuzu açıklığa kavuşturmak için: sunucudan indirilebilecek dosyaların listesini mi istiyorsunuz?
akira

`Wget --no-verbose --spider --no-directories --recursive --level = 2 apache.org/dist/ httpd/binaries` gibi bir komut sizin için çalışmıyor mu? Eğer yardımcı olabilecek daha spesifik olabilirseniz
DaveParillo

Yanıtlar:


12

wgetSayfaları tararken hangi dosya uzantılarının indirileceğini belirleyebilirsiniz :

wget -r -A zip,rpm,tar.gz www.site.com/startpage.html

Bu bir özyinelemeli arama ve sadece indirme dosyaları gerçekleştirecek .zip, .rpmve .tar.gzuzantıları.


8

varsayalım ki, sunucudaki dosyaların bir listesini getirmeden sadece bir liste istersiniz (henüz):

%> wget -r -np - örümcek http://www.apache.org/dist/httpd/binaries/ 2> & 1 | awk -f filter.awk | uniq

'filter.awk' şöyle görünürken

/^--.*-- http: \ / \ /.* [^ \ /] $ / {u = 3 $; }
/ ^ Uzunluk: [[: basamak:]] + / {print u; }

muhtemelen bazı girişleri filtrelemeniz gerekir.

"http://www.apache.org/dist/httpd/binaries/?C=N;O=D"

0

Ref: http://blog.incognitech.in/download-files-from-apache-server-listing-directory/

Aşağıdaki komutu kullanabilirsiniz:

wget --execute="robots = off" --mirror --convert-links --no-parent --wait=5 <website-url>

Her seçenekle açıklama

  • wget: CURL istemi yapmak ve uzak dosyaları yerel makinemize indirmek için basit komut.
  • --execute="robots = off": Bu, sayfalar arasında gezinirken robots.txt dosyasını yok sayar. Tüm dosyaları alamıyorsanız yardımcı olur.
  • --mirror: Bu seçenek temel olarak verilen URL'nin dizin yapısını yansıtır. Bunun kısayolu -N -r -l inf --no-remove-listingşu anlama gelir:
    • -N: yerelden daha yeni olmadıkça dosyaları yeniden alma
    • -r: özyinelemeli indirmeyi belirtin
    • -l inf: maksimum özyineleme derinliği (sonsuz için inf veya 0)
    • --no-remove-listing: '.listing' dosyalarını kaldırmayın
  • --convert-links: indirilen HTML veya CSS'deki bağlantıları yerel dosyalara yönlendirin
  • --no-parent: üst dizine yükselme
  • --wait=5: alımlar arasında 5 saniye bekleyin. Böylece sunucuyu çökertmiyoruz.
  • <website-url>: Bu, dosyaların indirileceği web sitesi url'sidir.

Mutlu İndirme: gülen yüz:

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.