Şuna benzeyen bir dizem var:
6Â 918Â 417Â 712
Bu dizeyi kırpmanın net yolu (Python'u anladığım kadarıyla), dizenin adı verilen bir değişkende olduğunu söylemektir s
, şunu elde ederiz:
s.replace('Â ', '')
Bu hile yapmalı. Ancak elbette '\xc2'
blabla.py dosyasındaki ASCII olmayan karakterin kodlanmadığından şikayet ediyor .
Farklı kodlamalar arasında nasıl geçiş yapılacağını asla tam olarak anlayamadım.
İşte kod, gerçekten yukarıdakinin aynısı, ama şimdi bağlam içinde. Dosya, not defterinde UTF-8 olarak kaydedilir ve aşağıdaki başlığa sahiptir:
#!/usr/bin/python2.4
# -*- coding: utf-8 -*-
Kod:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
s = soup.find('div', {'id':'main_count'})
#making a print 's' here goes well. it shows 6Â 918Â 417Â 712
s.replace('Â ','')
save_main_count(s)
Daha ötesine geçemez s.replace
...
u