Le ve Mikolov'un " Cümle ve Belgelerin Dağıtılmış Temsilleri " başlıklı ICML 2014 belgesindeki sonuçlardan etkilendim . "Paragraf vektörleri" olarak adlandırdıkları teknik, word2vec modelinin bir uzantısına dayanarak, keyfi olarak uzun paragrafların / belgelerin denetimsiz temsillerini öğrenir. Bu makale, bu teknik kullanılarak duyarlılık analizinde en son teknolojiye sahip performansı göstermektedir.
Bu tekniği geleneksel kelime torbası sunumuna alternatif olarak diğer metin sınıflandırma problemleri üzerinde değerlendirmeyi umuyordum. Ancak, ikinci yazarın beni duraklatan word2vec Google grubundaki bir ileti dizisinde yayınladım:
Kendimi yaz aylarında Quoc'un sonuçlarını çoğaltmaya çalıştım; IMDB veri kümesinde hata oranlarını yaklaşık% 9.4 -% 10'a kadar alabilirim (metin normalizasyonunun ne kadar iyi olduğuna bağlı olarak). Ancak, Quoc gazetede bildirilenlere yakın bir yere ulaşamadım (% 7.4 hata, bu büyük bir fark) ... Tabii ki de Quoc'a kod hakkında sorular sorduk; yayınlamaya söz verdi ama şimdiye kadar hiçbir şey olmadı. ... Quoc'un sonuçlarının aslında tekrarlanamayacağını düşünmeye başlıyorum.
Bu sonuçları çoğaltmada başarılı olan var mı?