Bir web sayfasının tüm dış bağlantılarını nasıl ayıklayabilir ve bir dosyaya nasıl kaydedebilirim?


11

Bir web sayfasının tüm dış bağlantılarını nasıl ayıklayabilir ve bir dosyaya nasıl kaydedebilirim?

Eğer harika bir komut satırı aracınız varsa.

Yanıtlar:


18

Vaşak ve awk olmak üzere 2 araca ihtiyacınız olacak , bunu deneyin:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Numaralama satırlarına ihtiyacınız varsa, nl komutunu kullanın , şunu deneyin:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Bunun göreli URL'ler için işe yarayacağını sanmıyorum
Sridhar Sarnobat

8

İşte lelton'un cevabında bir gelişme: vaşakların bazı yararlı seçeneklerine sahip olması için hiç awk'ye ihtiyacınız yok.

lynx -listonly -nonumbers -dump http://www.google.com.br

numaralar istiyorsan

lynx -listonly -dump http://www.google.com.br

0
  1. Söz konusu web sayfalarını almak için Güzel Çorba kullanın .
  2. Alan adınızı göstermeyen tüm URL'leri bulmak için awk kullanın

Ekran kazıma teknikleri üzerinde Güzel Çorba tavsiye ederim.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.