Duygu analizi için paragraf vektörlerini kullanma konusunda bildirilen son teknoloji performans çoğaltılmış mı?


20

Le ve Mikolov'un " Cümle ve Belgelerin Dağıtılmış Temsilleri " başlıklı ICML 2014 belgesindeki sonuçlardan etkilendim . "Paragraf vektörleri" olarak adlandırdıkları teknik, word2vec modelinin bir uzantısına dayanarak, keyfi olarak uzun paragrafların / belgelerin denetimsiz temsillerini öğrenir. Bu makale, bu teknik kullanılarak duyarlılık analizinde en son teknolojiye sahip performansı göstermektedir.

Bu tekniği geleneksel kelime torbası sunumuna alternatif olarak diğer metin sınıflandırma problemleri üzerinde değerlendirmeyi umuyordum. Ancak, ikinci yazarın beni duraklatan word2vec Google grubundaki bir ileti dizisinde yayınladım:

Kendimi yaz aylarında Quoc'un sonuçlarını çoğaltmaya çalıştım; IMDB veri kümesinde hata oranlarını yaklaşık% 9.4 -% 10'a kadar alabilirim (metin normalizasyonunun ne kadar iyi olduğuna bağlı olarak). Ancak, Quoc gazetede bildirilenlere yakın bir yere ulaşamadım (% 7.4 hata, bu büyük bir fark) ... Tabii ki de Quoc'a kod hakkında sorular sorduk; yayınlamaya söz verdi ama şimdiye kadar hiçbir şey olmadı. ... Quoc'un sonuçlarının aslında tekrarlanamayacağını düşünmeye başlıyorum.

Bu sonuçları çoğaltmada başarılı olan var mı?


Bu durum henüz değişti mi? Gensim'in doc2vec'in bir sürümünü (paragraf / belge vektörleri) uyguladığını biliyorum, bakınız: radimrehurek.com/gensim/models/doc2vec.html ancak burada belirtilen makalede sonuçları yeniden oluşturma girişimi yok.
Doctorambient

1
Evet, gensim kullanarak kağıt sonuçlarını yeniden oluşturma girişimleri yapıldı : doc2vec IPython not defterine bakın .
Radim

Yanıtlar:


13

Http://arxiv.org/abs/1412.5335 adresindeki dipnot (yazarlardan biri Tomas Mikolov)

Deneylerimizde (Le ve Mikolov, 2014) sonuçları eşleştirmek için, Quoc Le'nin negatif örnekleme yerine hiyerarşik softmax kullanma önerisini izledik. Ancak, bu sadece eğitim ve test verileri karıştırılmadığında% 92.6 doğruluk sonucu üretir. Bu nedenle, bu sonucun geçersiz olduğunu düşünüyoruz.


1
Neden "karıştırılmadı" ==> geçersiz olduğunu anlamıyorum. Tren / test seti arasında iyi tanımlanmış bir ayrım yok mu? Böylece tren / test nedir (orijinal) veri kümesini nasıl karıştırdığınıza bağlıdır? Test setinin sırası önemli değil (dinamik bir değerlendirme yok, değil mi?). Ve eğitim setinin sırası da çok önemli değil ...
capybaralet

@ user2429920 Farklılıklar alıyorlarsa, siparişin bir şekilde önemi vardır.
JAB
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.