Word2vec için ne kadar eğitim verisi gerekir?

Farklı kaynaklarda bahsedilen aynı kelime arasındaki farkı karşılaştırmak istiyorum. Yani, yazarlar "demokrasi" gibi kötü tanımlanmış sözcükleri kullanmalarında nasıl farklılık gösterirler.

Kısa bir plan

"Demokrasi" terimini anlatan kitapları düz metin olarak alın
Her kitapta, yerini democracyiledemocracy_%AuthorName%
word2vecBu kitaplarda bir model eğitin
Arasındaki mesafeyi hesaplayın democracy_AuthorA, democracy_AuthorBve diğer relabeled "demokrasi" bahseder

Böylece her yazarın "demokrasisi" karşılaştırma için kullanılan kendi vektörünü alır.

Ancak, word2vecgüvenilir vektörleri eğitmek için birden fazla kitaptan (her yeniden etiketlenmiş kelime yalnızca kitapların bir alt kümesinde gerçekleşir) çok daha fazlasını gerektiriyor gibi görünüyor . Resmi sayfası kelime milyarlarca dahil veri setlerini önerir.

Sadece bir yazarın kitaplarının alt kümesinin, bu tür bir çıkarsama word2vecveya varsa alternatif araçlarla yapabilmesi için ne kadar büyük olması gerektiğini sormak istedim ?

text-mining word-embeddings

— Anton Tarasenko
kaynak

Kullandığınız kitaplar sadece demokrasi konusunda mı, yoksa değil mi, mesafe metriğiniz kitapların içeriği arasındaki daha büyük farklılıklar tarafından boğulmayabilir mi? Bu, probleminizin çok yüksek boyutlu bir alanda olmasının ve boyutsallığın lanetinin elinden dokunmasının bir yan etkisidir. Belki de ilgilenilen kelimenin etrafında sadece küçük bir metin bölgesi almak yardımcı olacaktır, ancak yine de önemli boyutta bir sorundur.

— image_doctor

Evet, bunun özü bu. burada muhtemelen kötü düşünülmüş bir metaforla gider. Kitapların renklerle temsil edildiğini düşünün. Ve bir kitap, bölümlerin tüm renklerinin bir karışımı olarak temsil edilen bir bütün. Batı Avrupa'daki demokrasi üzerine bir kitap muhtemelen bölümlerinin toplamı olarak genel bir kırmızımsı renk tonu ile sonuçlanacaktır. Turizmi maviyle temsil edersek, Küba'da sadece demokrasi ve bunun ekonomik kalkınma üzerindeki etkisi ile ilgili bir turizm kitabının güçlü bir mavi tonu olacaktır. Yani iki kitap bir bütün olarak bakıldığında çok farklı görünür.

— image_doctor

Bu, bir veri bilimcisinin ne ifade edeceğini söylemenin daha erişilebilir bir yolu çünkü iki kitap için vektörler özellik alanında uzun bir mesafe olacak ve bu yüzden oldukça farklı görünecek. Verilerle oynamadan kaç örneğe ihtiyacınız olacağını önceden ölçmek gerçekten zordur, ancak dil ince ve katmanlı olduğundan, muhtemelen alabileceğiniz kadar çok isteyeceksiniz .... ve belki de daha fazlası. Nihayetinde deneyene kadar bilemezsin. Bu somut bir cevap değil, ancak birisi benzer bir şey yapma konusunda doğrudan bir deneyim olmadıkça, muhtemelen elde edeceğiniz en iyisidir.

— image_doctor

word2vec zaten sadece "ilgilenilen kelimenin etrafında küçük bir metin bölgesi" kullanıyor. windowBağlamda fazla kelimenin kelime için modeli eğitmek için nasıl kullanıldığını parametre setleri w

— jamesmf

@politicalscientist Bu projeyi bitirmemiştim.

— Anton Tarasenko

Doc2vec (veya paragraf / bağlam vektörleri) bu soruna uygun olabilir gibi görünüyor.

Özetle, kelime vektörlerine ek olarak, merkezi veya bağlam kelimelerini tahmin etmek için kullanılan bir "bağlam vektörü" (sizin durumunuzda, yazar için bir gömme) eklersiniz.

Bu, "demokrasi" ile ilgili tüm verilerden faydalanacağınız, ancak aynı zamanda her yazarın yanlılığını her bir yazar hakkında sınırlı verilerle analiz etmenize olanak tanıyan yazar için bir gömme çıkarmanız anlamına gelir.

Gensim uygulamasını kullanabilirsiniz . Doküman, kaynak makalelere bağlantılar içerir.

— buçukluklara
kaynak