İletileri bir SVM kullanarak farklı kategorilere ayırmaya çalışıyorum. Eğitim setinden istenen kelimelerin / simgelerin bir listesini derledim.
Bir mesajı temsil eden her vektör için, 1
kelime varsa karşılık gelen satırı ayarladım :
"corpus": [mary, küçük, kuzu, yıldız, parıltı]
ilk mesaj: "mary'nin küçük bir kuzusu vardı" -> [1 1 1 0 0]
ikinci mesaj: "pırıltı küçük yıldız" -> [0 1 0 1 1]
Bence bu SVM ile oldukça yaygın bir kurulum, ama sorum şu: setteki binlerce kelimeyle, mesaj başına sadece 1-2 kelime varsa ne olur? Eğitim vektörleri setimin doğrusal bağımlılığı, algoritmanın yakınsama yeteneğini olumsuz etkileyecek mi?
flexmix
- ama, birkaç yıl için benim takvimde "Öğrenmek R" vardı!