İstatistikler ve Büyük Veri bag-of-words

Kelime sıklığı verilerindeki dağılım nasıl ölçülür?

Kelime sayımlarının bir vektöründeki dağılım miktarını nasıl ölçebilirim? Sıklıkla ortaya çıkan bir kelime (veya birkaç kelime) içerdiğinden, nadiren ortaya çıkan birçok farklı kelime ve B belgesi için düşük olduğu için A belgesi için yüksek olacak bir istatistik arıyorum. Daha genel olarak, nominal verilerdeki dağılım veya "yayılma" nasıl ölçülür? Bunu metin …

10 variance natural-language gini dispersion bag-of-words

«bag-of-words» etiketlenmiş sorular