Merhaba, Veri Bilimi yığınındaki ilk sorum bu. Metin sınıflandırması için bir algoritma oluşturmak istiyorum. Büyük bir metin ve makale setim olduğunu varsayalım. 5000 düz metin yazalım. İlk olarak dört ve yukarıdaki karakter kelimelerinin tümünün sıklığını belirlemek için basit bir işlev kullanıyorum. Daha sonra bunu her eğitim örneğinin özelliği olarak kullanıyorum. Şimdi algoritmamın eğitim setlerini özelliklerine göre kümelemesini istiyorum, burada makaledeki her kelimenin frekansı. (Bu örnekte, her makalenin farklı bir özelliği olduğu için her makalenin kendine özgü bir özelliği olacağını unutmayın, örneğin bir makalede 10 "su ve 23" saf "ve diğerinde 8" politika "ve 14" kaldıraç "vardır). Bu örnek için mümkün olan en iyi kümeleme algoritmasını önerebilir misiniz?