«html-content-extraction» etiketlenmiş sorular

30
HTML kazıma seçenekleri? [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 6 yıl önce kapalı . HTML kazıma için bir Python paketi olan Beautiful Soup'u denemeyi düşünüyorum . Bakmam gereken …

30
Python kullanarak HTML dosyasından metin çıkarma
Python kullanarak bir HTML dosyasındaki metni ayıklamak istiyorum. Metni bir tarayıcıdan kopyalayıp not defterine yapıştırırsam alacağım aslında aynı çıktıyı istiyorum. Kötü biçimlendirilmiş HTML'de başarısız olabilecek normal ifadeleri kullanmaktan daha sağlam bir şey istiyorum. Birçok kişinin Güzel Çorba tavsiye ettiğini gördüm, ancak kullanırken birkaç sorun yaşadım. Birincisi, JavaScript kaynağı gibi istenmeyen …

8
Normal ifade eşleşmesinin bir bölümünü ayıklayın
Başlığı bir HTML sayfasından çıkarmak için normal bir ifade istiyorum. Şu anda buna sahibim: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Etiketleri kaldırmak zorunda kalmamam için yalnızca <title> içeriğini ayıklamak için normal bir ifade var mı?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.