Birinden bağlı tüm web sayfalarını kaydetme


15

Bu web sayfasını ve bağlantı verdiği tüm sayfaları kaydetmek istiyorum . ve kaydedilen web sayfaları arasında aynı bağlantıya sahip olmayı umuyoruz.

Bağlantı verilen her sayfayı açmak ve kaydetmek yerine bazı yollar var mı?

Yanıtlar:


12

İstediğiniz şeyi wget komut satırı yardımcı programıyla yapabilirsiniz. Bu -rseçeneği sunarsanız, web sayfalarını tekrar tekrar indirir. Örneğin:

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

Bu, bu web sayfasını ve bağlantı verdiği her şeyi indirir. Ayrıca, sadece belirli sayıda seviyeyi geri kazanmasını sağlayabilirsiniz, bunu yapmak için sadece bir sayı sağlarsınız -r. Gibi:

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

@ Mark: Teşekkürler! Şimdi mat.gsia.cmu.edu/orclass ve wget -r mat.gsia.cmu.edu/orclass komutunu kullanarak bağladığı sayfaları indirmeye çalışıyorum . wget, belirttiğim dizinin altında mat.gsia.cmu.edu dizini oluşturur ve altındaki sayfaları indirir. Ancak indirilen sayfalar arasındaki bağlantıların yollarında mat.gsia.cmu.edu yoktur, bu yüzden bir sorun haline gelir ve bağlantıları tıklatarak bir sayfadan diğerine gidemem. Sorunun neden ve nasıl çözüleceğini merak ediyordum? Teşekkürler!
Tim

Harici bağlantıları tekrar tekrar indirebileceğinizi sanmıyorum, @Tim.
Wuffers

"Dış bağlantılar" mevcut yolun altında olmayanlar anlamına mı geliyor?
Tim

@Tim: Harici bağlantılar ile mat.gsi.cmu.edu
Wuffers 23:11

1
@Tim: Oh, tamam. Yanlış anlaşılma için üzgünüm. HTML dosyalarını kendiniz düzenlemeyi deneyebilir ve çalıştırabilirsiniz.
Wuffers

11

Bu konu şimdi eskidir, ancak diğerleri konuya bakabilir. Wuffers, beni doğru yöne yönlendirdiğiniz için, ancak Wuffers'ın cevabını genişlettiğiniz için teşekkür ederiz: Modern bir wget sürümünde, bağlantıları yinelemek ve yerel bir kopyada gezinmek için yerel göreli bağlantılar olarak yamalamak için bir dizi yararlı seçenek vardır. bir web sitesi. Tekrarlamak için -r seçeneğini, yerel bağlantıları yamalamak için -k seçeneğini, orijinali dışındaki alanlara geçmek için -H seçeneğini, hangi alanlara geçtiğinizi sınırlamak için -D seçeneğini, özyineleme derinliği ve çapraz geçiş yapraklarının doğru görüntülemek için gereken her şeye sahip olduğundan emin olmak için -p seçeneği. Örneğin, aşağıdakiler bir sayfayı ve hemen bağlantı verdiği her şeyi indirerek yerel olarak göz atılabilir hale getirir,

wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain

Yukarıdakine benzer bir komut kullanarak, harici bağlantıları olan bir wiki sayfasının yığınını megabayt harici verileri indirmeden yerel diskime indirebildim. Şimdi, kök sayfayı tarayıcımda açtığımda, İnternet bağlantısı olmadan ağaçta gezinebilirim. Tek rahatsız edici, kök sayfanın alt dizinlere gömülmüş olması ve görüntülemeyi kolaylaştırmak için üst düzey bir yönlendirme sayfası oluşturmak zorunda kaldım. Doğru olması için deneme yanılma gerekebilir. Wget man sayfasını okuyun ve deneyin.


4

Ücretsiz olan httrack gibi bir web sitesi tarayıcısı kullanabilirsiniz .

Web sitesinden;

[httrack], World Wide Web sitesini Internet'ten yerel bir dizine indirmenize, özyinelemeli olarak tüm dizinleri oluşturmanıza, HTML, resimler ve diğer dosyaları sunucudan bilgisayarınıza almanıza olanak tanır. HTTrack orijinal sitenin göreli bağlantı yapısını düzenler. Tarayıcınızda "yansıtılmış" web sitesinin bir sayfasını açın ve sanki çevrimiçi görüntülüyormuşsunuz gibi bağlantıdan bağlantıya siteye göz atabilirsiniz.


1
+1 Mükemmel bir uygulama! Ama istemediğim tüm bağlı zip dosyalarını da kapıyor. Ama sonra muhtemelen ilk önce talimatları okumalıydım!
finlaybob

Evet, tüm bağlantıları takip edebilir / izleyecek, böylece dosyaları indirecektir. (@Finlaybob, profilinizde listelenen ana sayfanın saldırıya uğradığını biliyor musunuz?)
RJFalconer

Değildim! Buna bakacağım - bana bildirdiğiniz için teşekkürler!
finlaybob
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.