«web-crawler» etiketlenmiş sorular

5
Web sayfalarını e-kitap için bir dosyaya dönüştürün
HTML'leri indirmek (örnek: http://www.brpreiss.com/books/opus6/ ) ve e-kitap okuyucunda kullanabileceğim bir HTML veya başka bir formata katılmak istiyorum . Ücretsiz kitapları olan siteler standart sayfalamaya sahip değildir, bloglar veya forumlar değildir, bu nedenle bazı otomatik tarama ve birleştirme işlemlerinin nasıl yapıldığını bilmezsiniz.


2
SADECE HTML dosyalarını indirmek için wget kullanarak tarama (görüntüleri, css, js yoksay)
Aslında, tüm bir siteyi Wget ile taramak istiyorum, ancak ASLA diğer varlıkları (ör. Görüntü, CSS, JS, vb.) İndirmem gerekiyor. Yalnızca HTML dosyalarını istiyorum. Google aramaları tamamen işe yaramaz. İşte denediğim bir komut: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) …
14 wget  web-crawler 

4
Bir Siteyi Yinelemeli Olarak Taramak ve Resimleri İndirmek için Wget'i Kullanma
Bir web sitesini özyinelemeli olarak taramak ve yalnızca belirli türdeki resimleri indirmek için nasıl uyarırsınız? Bir siteyi taramak ve sadece Jpeg resimleri indirmek için bunu kullanmayı denedim: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html Ancak, page1.html, resimlere doğrudan bağlantıları olan yüzlerce alt sayfaya bağlantı içeriyor olsa da, "subpage13.html dosyasının …

4
CURL kullanarak site kazıma ne kadar “yasal”? [kapalı]
Şu anda olduğu gibi, bu soru Soru-Cevap formatımıza uygun değil. Yanıtların gerçekler, referanslar veya uzmanlık tarafından desteklenmesini bekliyoruz, ancak bu soru muhtemelen tartışma, tartışma, oylama veya genişletilmiş tartışma talep edecektir. Bu sorunun çözülebileceğini ve muhtemelen yeniden açılabileceğini düşünüyorsanız, yardım için yardım merkezini ziyaret edin . 9 yıl önce kapalı . …

0
Web sitelerinden metin nasıl çıkarılır?
Birden çok web sitesinden bir kelime belgesine metin ayıklamak otomatikleştirmek için bir yol arıyorum. Doc kelimesine yapıştırıldığında "birleştirme biçimlendirme" kullanarak yapıştırmaya ihtiyacım var. Bu, ayıklanan metnin doc kelimesine yapıştırıldıktan sonra bitmesini istiyorum - Örnek Metin çıkarıcısına yalnızca "Önceki Bölüm" dediği, ancak "önceki bölüm" demediği bölümün sonuna kadar, "Kitap 1, Bölüm …

0
web örümcek / tarama, bunu yapabilir miyim veya sadece arama motorlarını mı?
Ben zaten wget ile web-kazıma hakkında bir soru yanıtladı. ama biraz daha fazla okuduğumda, web tarama programı aradığımı fark ediyorum. özellikle web tarayıcıları ile ilgili kısım, bağlantılar veya benim durumumdaki ürünler gibi belirli verileri alabilmenin bir parçası. Sitemdeki tüm ürünler aşağıdaki adlandırma kurallarına sahiptir: website.com/uniqueAlphaNumericID.html bildiğim kadarıyla, dinamik içerik üretimi …

5
Site haritasını almak için web sitesi tarayıcısı / örümcek [kapalı]
Bir web sitesi haritasını aşağıdaki gibi bir biçimde almam gerekiyor: http://example.org/ http://example.org/product/ http://example.org/service/ http://example.org/about/ http://example.org/product/viewproduct/ Gibi bağlı tabanlı (dosya veya dir brute-force), ihtiyacım var: ayrıştırma anasayfası - & gt; tüm bağlantıları al - & gt; onları keşfet - & gt; bağlantıları al ... Ayrıca, bir sayfanın "alt sayfaların" tümünü almamak …

1
Kişisel web sitem neden gizemli URL’leri ziyaret ediyor? [kapalı]
Son zamanlarda sitemin ziyaretçisinin günlüğüne yönelik bir güncelleme yaptım ve düzgün çalıştığını kontrol ederken, bana ait olmayan URL’leri ziyaret ettiğimi fark ettim. Site Google’da olmadığı ve şu anda bildiğim herhangi bir yerden bağlantıda olmadığı için botları gördüğüme şaşırdım. Sitem IP, zaman damgası, kullanıcı temsilcisi ve sayfa adresini her ziyaret için …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.