Word2Vec için daha iyi bir girdi nedir?

22

Bu daha genel bir NLP sorusu gibi. Word2Vec yani gömülü bir kelimeyi eğitmek için uygun girdi nedir? Bir makaleye ait tüm cümleler bir korpus'ta ayrı bir belge mi olmalı? Yoksa her makale söz konusu corpus'ta bir belge mi olmalı? Bu sadece python ve gensim kullanan bir örnektir.

Corpus cümleye göre bölünmüş:

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

Corpus makaleye göre bölünmüş:

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

Python'da Word2Vec Eğitimi:

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

nlp word-embeddings

— wacax
kaynak

14

Bu sorunun cevabı buna bağlı . Birincil yaklaşım belirtilmiş cümleleri geçmektir (yaniSentenceCorpus örneğin sizin örneğinizde) , ancak amacınızın ne olduğuna ve korpusun neye baktığınıza bağlı olarak, bunun yerine bütünleri, yerleştirmeleri öğrenmek için kullanmak isteyebilirsiniz. Bu, önceden bilmediğiniz bir şeydir - bu nedenle, yerleştirmelerin kalitesini nasıl değerlendirmek istediğinizi düşünmeniz ve hangi tür yerleştirmelerin göreviniz için daha yararlı olduğunu görmek için bazı deneyler yapmanız gerekir ( s).

— NBartley
kaynak

Tam yerinde. Gömmeleri bir modelde kullandım ve sizin de belirttiğiniz gibi, makalenin tamamını kullandığımda modelin öngörücü performansında büyük bir gelişme oldu. Öyleyse hangi durumda eğitim cümlesi cümle ile üstün olurdu.

— Wacax

1

Benzer vektörleri olan kelimelerin birbirleriyle nasıl ilişkili olduğunu görmelisiniz. Bağlam penceresinin büyüklüğü ve daha küçük pencerelerin (ve belki de cümle gibi daha küçük doküman boyutlarının) cümle olarak benzer sözcükler yapabileceğini düşündüren bağlam bağlamında ve bağlam türü üzerinde bazı çalışmalar yapılmıştır (ABD devletleri gibi). ABD devletler ve hükümet ile ilgili kelimeler gibi) benzer vektörlere sahiptir. Çoğunlukla Omer Levy ve Yoav Goldberg'in 2014'ten itibaren Bağımlılık Tabanlı Kelime Yerleşmelerinden bahsettim.

— NBartley

1

@ NBartley'in cevabına ek olarak. Kimseye bu soruyu rastla. Makale / cümleyi Spark2.2'deki word2vec'in girişi olarak kullanmaya çalıştım, sonuç şöyle.

kullanmak cümle girdi olarak:

makaleyi girdi olarak kullanın :

— Zachary
kaynak

0

Eskiler için, gensim Word2Vec sınıfına sahip. İkincisi için, Doc2Vec.

http://rare-technologies.com/doc2vec-tutorial/

3

doc2vec, word2vec ifadesini cümlelerden ziyade bir cisim cesedi üzerinde yapmaktan oldukça farklıdır. doc2vec sadece sözcüklerden ziyade makalelerin kendi sunumlarını öğrenecektir.

— jamesmf