Bir python MapReduce kelime sayımı programı yazıyorum. Sorun şu ki, verilerde birçok alfabe dışı karakter var, bu yazıyı Python'daki bir dizeden alfanümerik karakterler dışında her şeyi çıkarıp regex kullanarak güzel bir çözüm gösteren buldum, ancak bunu nasıl uygulayacağımı bilmiyorum
def mapfn(k, v):
print v
import re, string
pattern = re.compile('[\W_]+')
v = pattern.match(v)
print v
for w in v.split():
yield w, 1
Korkarım rebu konuda kitaplığı ve hatta normal ifadeyi nasıl kullanacağımdan emin değilim . vAlfasayısal olmayan karakterler olmadan yeni satırı almak için normal ifade desenini gelen dizeye (bir kitabın satırı) nasıl uygulayacağımdan emin değilim .
Öneriler?
vbir kitabın tam bir satırıdır (özellikle moby dick), kelime kelime değil, kelime kelime gidiyorum. Yani bazı kelimelerin sonunda "," olabilir, bu nedenle "aşağılama" "aşağılama" ile eşleşmez.