Metin-Sınıflandırma-Sorun: Word2Vec / NN en iyi yaklaşım mı?

Ben bir metin paragrafı verilen onu kategorize ve bağlam tanımlamak mümkün olacak bir sistem tasarlamak için arıyorum:

Kullanıcı tarafından oluşturulan metin paragrafları (yorumlar / sorular / cevaplar gibi) ile eğitilir
Eğitim setindeki her bir öğe ile etiketlenir. Örneğin ("kategori 1", "metin paragrafı")
Yüzlerce kategori olacak

Böyle bir sistem kurmak için en iyi yaklaşım ne olabilir? Birkaç farklı seçeneğe bakıyorum ve aşağıdaki olası çözümlerin bir listesi. Word2Vec / NN şu anda en iyi çözüm mü?

Ortalama Word2Vec verileriyle beslenen özyinelemeli Sinir Tensör Ağı
RNTN ve Paragraf Vektörü ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
Derin İnanç Ağında Kullanılan TF-IDF
TF-IDF ve Lojistik Regresyon
Kelime torbası ve Naive Bayes sınıflandırması

— Shankar
kaynak

Ne tür kategorileri açıklığa kavuşturabilir misiniz? Yeni kategoriler ve / veya görünmeyen kelimelerle başa çıkabilmesi gerekecek mi? Sık olmayan terimler ve görünmeyen kategorilerle ilgili gereksinimler, sistemin tasarımına yardımcı olacaktır.

— NBartley

Teşekkürler @NBartley. Görünmeyen kelimeler de yüksek bir olasılık olacaktır. Girdi parametreleri kullanıcı tarafından oluşturulan içerik olacaktır, bu nedenle yeni görünmeyen kelimelerin olasılığı çok yüksek olacaktır. Kategoriler tanımlanır, ancak kategori listesini zaman içinde genişletmemiz gerekir. Teşekkürler

— Shankar

Sense2vec'i de kontrol etmelisiniz arxiv.org/abs/1511.06388 . Kısacası, kelime bölümleri Konuşma Parçası etiketleme ile birleştirilmiştir. Eş anlamlı sözcükleri belirsizleştirerek kelime düğünlerini daha doğru hale getirdiği bildirildi. Sınıflandırma görevlerindeki performansı da iyileştirip iyileştirmediğini görmek ilginç olurdu.

— wacax

1) TFIDF vektörleri üzerindeki Max-Entropi (Lojistik Regresyon) birçok NLP sınıflandırma görevi için iyi bir başlangıç noktasıdır.

2) Word2vec kesinlikle denemek ve model 1 ile karşılaştırmaya değer bir şeydir. Cümlelere / paragraflara bakmak için Doc2Vec lezzetini kullanmanızı öneririm.

Le ve Tomas Mikolov Karşılaştırması. Cümle ve Belgelerin Dağıtık Temsilleri.http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) güzel bir Doc2vec modeline sahiptir.

— rushimg
kaynak

Teşekkürler @rushimg. Kategoriler yakından ilişkiliyse, yani girdi olarak kullanılan metin parasının çok sayıda ortak kelimesi vardır, iki yaklaşımdan hangisi bağlamı anlama ve ikisi arasında ayrım yapma konusunda daha iyi olur?

— Shankar

Doc2Vec modelini max-ent modelinin kelime torbası varsayımını kaldırdığı için kullanırım. Tf-idf, max-ent modelinde özellik olarak kullanılırsa, bu aynı zamanda yaygın kelimelerin etkisini de azaltır. Her iki yöntemi de denemek ve onları değiştirmek en iyi yol olacaktır.

— rushimg