Bir web sitesi haritasını aşağıdaki gibi bir biçimde almam gerekiyor:
- http://example.org/
- http://example.org/product/
- http://example.org/service/
- http://example.org/about/
- http://example.org/product/viewproduct/
Gibi bağlı tabanlı (dosya veya dir brute-force), ihtiyacım var:
ayrıştırma anasayfası - & gt; tüm bağlantıları al - & gt; onları keşfet - & gt; bağlantıları al ...
Ayrıca, bir sayfanın "alt sayfaların" tümünü almamak için "şablon" olup olmadığını belirleme yeteneğine de ihtiyacım var. Örneğin, aşağıdaki bağlantılar bulunursa:
- http://example.org/product/viewproduct?id=1
- http://example.org/product/viewproduct?id=2
- http://example.org/product/viewproduct?id=3
Sadece bir kez almak gerekir http://example.org/product/viewproduct
HTTtracks, wget (örümcek seçeneğiyle) içine baktım, ancak şu ana kadar kesin olan hiçbir şey yok.
Yazılım / araç indirilebilir olmalıdır ve Linux'ta çalışıp çalışmamasını tercih ederim. Herhangi bir dilde yazılabilir.
Teşekkürler