Aşağıdakileri içeren büyük (yaklaşık 12 milyon satır) bir veri çerçevem df var:
df.columns = ['word','documents','frequency']
Dolayısıyla aşağıdakiler zamanında gerçekleşti:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
Ancak, bunun çalışması beklenmedik uzun bir zaman alıyor:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
Burada neyi yanlış yapıyorum? Büyük bir veri çerçevesinde oluşumları saymanın daha iyi bir yolu var mı?
df.word.describe()
oldukça iyi çalıştı, bu yüzden bu Occurrences_of_Words veri çerçevesinin oluşturulmasının çok uzun sürmesini beklemiyordum.
ps: Cevap açıksa ve bu soruyu sorduğum için beni cezalandırma ihtiyacı hissediyorsanız, lütfen yanıtı da ekleyin. teşekkür ederim.
df.word.value_counts()['myword']
, yaklaşık iki kat daha hızlıdırlen(df[df.word == 'myword'])
.