Ele aldığım sorun kısa metinleri birden çok sınıfa ayırmak. Şu anki yaklaşımım tf-idf ağırlıklı terim frekanslarını kullanmak ve basit bir lineer sınıflandırıcıyı (lojistik regresyon) öğrenmek. Bu gayet iyi çalışıyor (test setinde yaklaşık% 90 makro F-1, eğitim setinde yaklaşık% 100). Büyük bir sorun görünmeyen kelimeler / n-gramdır.
Diğer özellikleri, örneğin dağıtım benzerlikleri (word2vec tarafından hesaplanan gibi) veya örneklerin diğer kategorik özellikleri kullanılarak hesaplanan sabit boyutlu vektör ekleyerek sınıflandırıcı geliştirmeye çalışıyorum. Benim fikrim sadece sözcüklerin çantasından seyrek giriş özelliklerine eklemek oldu. Ancak bu, test ve eğitim setinde daha kötü performansa neden olur. Ek özellikler kendi başlarına test setinde yaklaşık% 80 F-1 verir, bu yüzden çöp değildirler. Özelliklerin ölçeklendirilmesi de yardımcı olmadı. Şu anki düşüncem, bu tür özelliklerin (seyrek) kelime özellikleri ile iyi karışmamasıdır.
Yani soru şu: Ek özelliklerin ek bilgi sağladığını varsayarsak, bunları birleştirmenin en iyi yolu nedir? Ayrı sınıflandırıcıları eğitmek ve bir grup topluluk çalışmasında birleştirmek mümkün olabilir (bu muhtemelen farklı sınıflandırıcıların özellikleri arasında herhangi bir etkileşimin yakalanamaması dezavantajı olacaktır)? Dikkate almam gereken daha karmaşık modeller var mı?