Şu anda bir HTML dosyasını ayrıştırmak ve çağırmak için Güzel Çorba kullanıyorum get_text()
, ancak boşlukları temsil eden \ xa0 Unicode bir sürü bırakılıyor gibi görünüyor. Hepsini Python 2.7'de kaldırmanın ve boşluklara dönüştürmenin etkili bir yolu var mı? Daha genel bir soru olurdu, Unicode biçimlendirmesini kaldırmak için bir yolu var mı?
line = line.replace(u'\xa0',' ')
Başka bir iş parçacığı tarafından önerildiği gibi : kullanarak denedim , ama bu \ xa0's u's değişti, bu yüzden şimdi bunun yerine her yerde "u" s var. ):
DÜZENLEME: Sorun çözülmüş gibi görünüyor str.replace(u'\xa0', ' ').encode('utf-8')
, ama sadece .encode('utf-8')
olmadan replace()
yapmak örneğin garip karakterler, örneğin \ xc2 tükürmek neden gibi görünüyor. Bunu açıklayan var mı?
u''
yerine s ''
s. :-)
u' '
yerine değil, yerine kullanmanız gerekir ' '
. Orijinal dize unicode bir dize mi?