Resim, HTML ve CSS indirmek için bir web sitesini HTTP üzerinden kopyalayın


22

Bir siteyi HTTP üzerinden kopyalamam gerekiyor. Görüntüleri, HTML, CSS ve JavaScript'i indirmem ve dosya sisteminde düzenlemem gerekiyor.

Bunu nasıl yapacağını bilen var mı?


2
Bu yazılımı telif hakkı ihlali için kullanmayacağınızı söylemelisiniz. Aksi takdirde, başkalarının içeriğini yansıtmak istediğinizi varsayalım, böylece ondan para kazanabilirsiniz.
belgariontheking

Bir zamanlar bir müşterimiz ayrılmak istiyordu, ancak sitelerinin statik HTML versiyonunu alarak CMS'yi bıraktı. Statik siteyi üretmek için HTTrack kullandım. Windows ve Ubuntu'da iyi çalışıyor.
TRiG

4
@belgariontheking: En kötüsünü varsaydığın ilginç. Kendi dinamik web sitemizin statik bir HTML versiyonunu indirmek için WinHTTrack'i de kullanıyoruz.
Umber Yüksük

Yanıtlar:


40
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

Bu konsolda çalışır.

bu, bir siteyi kapar, istekler arasında 3 saniye bekler, indirme hızını sınırlandırır, böylece siteyi öldürmez ve sitenin sizi bir tarayıcı gibi görünmesini sağlayacak şekilde gizler bir sülük önleme mekanizması kullanarak.

Not -Aİndirmek istediğiniz dosya türlerinin bir listesini gösterir parametreyi.

-D domain1.com,domain2.comBaşka bir sunucu kullanıyorsanız, indirmek istediğiniz bir dizi etki alanını belirtmek için başka bir etiket de kullanabilirsiniz . Dosyaları alamazsanız, tüm durumlar için bunu otomatikleştirmenin güvenli bir yolu yoktur.

wgetLinux'a önceden yüklenmiştir, ancak diğer Unix sistemleri için önemsiz bir şekilde derlenebilir veya Windows için kolayca indirilebilir: GNUwin32 WGET

Bunu iyilik için ve kötülük için kullanmayın.


1
wget -erobots = kapalı - no-parent - wait = 3 - limit oranı = 50K -r -p -U "Mozilla / 4.0 (uyumlu; MSIE 7.0; Windows NT 5.1)" -k - dizin öneki "C: \ soygun" --page koşul -A htm, aspx, php, jsp, asp zip, png, html, css, js, json, gif, jpeg, jpg, bmp domain.com
Chris S

Bu "Vanity URL’leri" üzerinde çalışır mı? Bir sosyal paylaşım sitesine yazılan içeriğimden (tamam, şarkılar) endişeliyim ve yerel olarak yedeklemek istiyorum. Site "www.example.com", ancak "avi.example.com" kullanıcı adıma sahip bir makyaj URL’si var. Tüm siteyi indirmek istemiyorum, sadece içeriğimi!
Avi,

Linux'ta, wget'ı kaynaklardan yüklemek isteyebilirsiniz. Örneğin Ubuntu sürümü, yukarı akış wget'ı yaparken CSS'yi ayrıştırmaz.
GDR

16

İyi, Ücretsiz Çözüm: HTTrack

HTTrack ücretsiz (GPL, libre / free yazılımı) ve kullanımı kolay bir çevrimdışı tarayıcı aracıdır.

Bir World Wide Web sitesini İnternet'ten yerel bir dizine indirmenize, tekrarlayan bir şekilde tüm dizinleri oluşturmanıza, HTML, resimler ve diğer dosyaları sunucudan bilgisayarınıza indirmenize izin verir. HTTrack, orijinal sitenin göreceli bağlantı yapısını düzenler. Tarayıcınızdaki "yansıtılmış" web sitesinin bir sayfasını açmanız yeterlidir; siteyi çevrimiçi izliyormuşsunuz gibi, bağlantıdan bağlantıya gözatabilirsiniz. HTTrack, yansıtılmış bir siteyi de güncelleyebilir ve kesintili indirme işlemine devam edebilir. HTTrack tamamen yapılandırılabilir ve entegre bir yardım sistemine sahiptir.


7

Linux sistemlerinde 'wget' bunu hemen hemen yapar.

Aynı zamanda, diğer cevapların birçoğunun bahsettiği gibi başka platformlara da taşınmıştır.



Linux olduğu için muhtemelen sadece bir Ubuntu VM oluşturabilir, wget çalıştırabilir ve dosyaları tekrar ana bilgisayarıma aktarabilirdim. Görünüşe göre bu Windows'a taşınmaktan daha hızlı olurdu. :) (Verilen, Windows'a taşınması muhtemelen yine de iyi bir alıştırmadır!)
JMD

Makinemde debian var. Wget 'e ilişkili alt dizinleri / javascript / css / resimlerini bulmasını söyleyebilir miyim?
Damon,

# Example.com'un tüm içeriğini indirin wget -r -l 0 example.com

Evet ... ya da yerel Windows portunu kullan ya da
Cygwin'i

2

Açıkçası WGet birkaç kez bahsedildi. Bulduğum en iyi kullanıcı arayüzü

Çevresinde WGet için başka kullanıcı arayüzleri var, bazıları ise en kötü kullanıcı sorusu için aday.


1

Firefox için Scrapbook uzantısına bakın. Bu, inanılmaz bir iş çıkarır ve ayrıca firebug ile entegre olur ve isterseniz kaydetmeden önce DOM'dan öğeleri silmenizi sağlar.


1

Çoğu platform için geçerli olan wget - kullanmanız gerekir. curl, wget'ın en güçlü yönlerinden biri olan dokümanları yinelemeli olarak istemeyecektir.

Linux: (genellikle dağıtıma dahil edilir) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/

LÜTFEN web sitesine girmediğinizden emin olun - istekler arasında uygun gecikmeler ayarlayın ve sitenin hizmet şartları dahilinde olduğundan emin olun.

-Adam


Aslında, bizim çekeceğimiz sunucularımızdır. Bu site dinamik olarak PHP üzerinden oluşturulmuştur ve CMS / DB tersine çevrilmiştir. çok sarsılmış bir hikaye, ben daha yeni geldiğim geliştiriciyim. ama şimdi her şeyi Django'da inşa ediyoruz, bu yüzden endişelenmene gerek yok.
damon

1

Aslında, GWLlosa'nın gönderisine yazdığım yorumdan sonra, GnuWin32'nin kurulu olduğunu hatırladım ve Windows wget bağlantı noktası içerdiğinden eminim.

http://sourceforge.net/projects/gnuwin32/

GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP


1

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

  • -p : parametresi, wget'a görüntüler dahil tüm dosyaları eklemesini söyler.
  • -e robots=off : siteleri robots.txt kurallarını yoksay
  • -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" : kullanıcı aracısı dizesi
  • --random-wait : kara listeye almaktan kaçının
  • --limit-rate=20k : dosyaları indirme oranını sınırlar.
  • -b : oturumu kapattıktan sonra wget devam ediyor.

Bunlar kullandığım paramlar. Ayrıca işler ters gittiğinde -c(veya --continue) seçeneği ekliyorum ve işlemi yeniden başlatmam gerekiyor.
kub1x


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.