2
Metin kategorizasyonu: farklı türdeki özellikleri birleştirme
Ele aldığım sorun kısa metinleri birden çok sınıfa ayırmak. Şu anki yaklaşımım tf-idf ağırlıklı terim frekanslarını kullanmak ve basit bir lineer sınıflandırıcıyı (lojistik regresyon) öğrenmek. Bu gayet iyi çalışıyor (test setinde yaklaşık% 90 makro F-1, eğitim setinde yaklaşık% 100). Büyük bir sorun görünmeyen kelimeler / n-gramdır. Diğer özellikleri, örneğin dağıtım …