Ben bir metin paragrafı verilen onu kategorize ve bağlam tanımlamak mümkün olacak bir sistem tasarlamak için arıyorum:
- Kullanıcı tarafından oluşturulan metin paragrafları (yorumlar / sorular / cevaplar gibi) ile eğitilir
- Eğitim setindeki her bir öğe ile etiketlenir. Örneğin ("kategori 1", "metin paragrafı")
- Yüzlerce kategori olacak
Böyle bir sistem kurmak için en iyi yaklaşım ne olabilir? Birkaç farklı seçeneğe bakıyorum ve aşağıdaki olası çözümlerin bir listesi. Word2Vec / NN şu anda en iyi çözüm mü?
- Ortalama Word2Vec verileriyle beslenen özyinelemeli Sinir Tensör Ağı
- RNTN ve Paragraf Vektörü ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- Derin İnanç Ağında Kullanılan TF-IDF
- TF-IDF ve Lojistik Regresyon
- Kelime torbası ve Naive Bayes sınıflandırması