Metin işlemede Kümelemeyi kullanma


11

Merhaba, Veri Bilimi yığınındaki ilk sorum bu. Metin sınıflandırması için bir algoritma oluşturmak istiyorum. Büyük bir metin ve makale setim olduğunu varsayalım. 5000 düz metin yazalım. İlk olarak dört ve yukarıdaki karakter kelimelerinin tümünün sıklığını belirlemek için basit bir işlev kullanıyorum. Daha sonra bunu her eğitim örneğinin özelliği olarak kullanıyorum. Şimdi algoritmamın eğitim setlerini özelliklerine göre kümelemesini istiyorum, burada makaledeki her kelimenin frekansı. (Bu örnekte, her makalenin farklı bir özelliği olduğu için her makalenin kendine özgü bir özelliği olacağını unutmayın, örneğin bir makalede 10 "su ve 23" saf "ve diğerinde 8" politika "ve 14" kaldıraç "vardır). Bu örnek için mümkün olan en iyi kümeleme algoritmasını önerebilir misiniz?

Yanıtlar:


5

Ted Pedersen tarafından SenseCluster'ı okuduğunuzu bilmiyorum: http://senseclusters.sourceforge.net/ . Duyu kümelemesi için çok iyi bir kağıt.

Ayrıca, kelimeleri analiz ederken, "bilgisayar", "bilgisayarlar", "bilgisayar", ... bir kavramı, yani sadece bir özelliği temsil ettiğini düşünün. Doğru bir analiz için çok önemlidir.

Kümeleme algoritması hakkında konuşmak için, hiyerarşik bir kümeleme kullanabilirsiniz . Algo'nun her adımında, en çok benzeyen 2 metni özelliklerine göre birleştirirsiniz (örneğin, farklılık ölçüsü, öklid mesafesi gibi). Bu farklılık ölçüsüyle, metinleriniz ve makaleleriniz için en iyi kümeleri ve dolayısıyla en iyi kümelemeyi bulabilirsiniz.

İyi şanslar :)


6

Mevcut yolunuza devam etmek istiyorsanız, her terimin frekansını tüm topluluktaki popülerliğine göre normalleştirmenizi öneririm, bu yüzden nadir ve dolayısıyla öngörücü kelimeler teşvik edilir. Daha sonra bu çok uzun vektörlerin boyutsallığını küçültmek için rastgele projeksiyonlar kullanın, böylece kümeleme algoritmanız daha iyi çalışır (yüksek boyutlu alanlarda kümelenmek istemezsiniz).

Ancak konu modellemenin başka yolları da vardır. Daha fazla bilgi edinmek için bu öğreticiyi okuyun .



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.