Metin işlemede Kümelemeyi kullanma

11

Merhaba, Veri Bilimi yığınındaki ilk sorum bu. Metin sınıflandırması için bir algoritma oluşturmak istiyorum. Büyük bir metin ve makale setim olduğunu varsayalım. 5000 düz metin yazalım. İlk olarak dört ve yukarıdaki karakter kelimelerinin tümünün sıklığını belirlemek için basit bir işlev kullanıyorum. Daha sonra bunu her eğitim örneğinin özelliği olarak kullanıyorum. Şimdi algoritmamın eğitim setlerini özelliklerine göre kümelemesini istiyorum, burada makaledeki her kelimenin frekansı. (Bu örnekte, her makalenin farklı bir özelliği olduğu için her makalenin kendine özgü bir özelliği olacağını unutmayın, örneğin bir makalede 10 "su ve 23" saf "ve diğerinde 8" politika "ve 14" kaldıraç "vardır). Bu örnek için mümkün olan en iyi kümeleme algoritmasını önerebilir misiniz?

text-mining clustering

— Raşid
kaynak

5

Ted Pedersen tarafından SenseCluster'ı okuduğunuzu bilmiyorum: http://senseclusters.sourceforge.net/ . Duyu kümelemesi için çok iyi bir kağıt.

Ayrıca, kelimeleri analiz ederken, "bilgisayar", "bilgisayarlar", "bilgisayar", ... bir kavramı, yani sadece bir özelliği temsil ettiğini düşünün. Doğru bir analiz için çok önemlidir.

Kümeleme algoritması hakkında konuşmak için, hiyerarşik bir kümeleme kullanabilirsiniz . Algo'nun her adımında, en çok benzeyen 2 metni özelliklerine göre birleştirirsiniz (örneğin, farklılık ölçüsü, öklid mesafesi gibi). Bu farklılık ölçüsüyle, metinleriniz ve makaleleriniz için en iyi kümeleri ve dolayısıyla en iyi kümelemeyi bulabilirsiniz.

İyi şanslar :)

— JC R
kaynak

6

Mevcut yolunuza devam etmek istiyorsanız, her terimin frekansını tüm topluluktaki popülerliğine göre normalleştirmenizi öneririm, bu yüzden nadir ve dolayısıyla öngörücü kelimeler teşvik edilir. Daha sonra bu çok uzun vektörlerin boyutsallığını küçültmek için rastgele projeksiyonlar kullanın, böylece kümeleme algoritmanız daha iyi çalışır (yüksek boyutlu alanlarda kümelenmek istemezsiniz).

Ancak konu modellemenin başka yolları da vardır. Daha fazla bilgi edinmek için bu öğreticiyi okuyun .

— Emre
kaynak

2

En iyisi olduğunu söyleyemem, ancak Gizli Semantik Analiz bir seçenek olabilir. Temel olarak birlikte ortaya çıkmaya dayanır, önce ağırlıklandırmanız gerekir.

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

Sorun, LSA'nın kesin istatistik desteğinin olmamasıdır.

İyi eğlenceler

— Chen Guo
kaynak

0

Metni sınıflandırmanın bir yolu Terim Sıklığı ve Ters Belge Sıklığı hesaplamaktır. Bu makaleye başvurabilirsiniz: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— Rajan Kumar Kharel
kaynak