Bu daha genel bir NLP sorusu gibi. Word2Vec yani gömülü bir kelimeyi eğitmek için uygun girdi nedir? Bir makaleye ait tüm cümleler bir korpus'ta ayrı bir belge mi olmalı? Yoksa her makale söz konusu corpus'ta bir belge mi olmalı? Bu sadece python ve gensim kullanan bir örnektir.
Corpus cümleye göre bölünmüş:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Corpus makaleye göre bölünmüş:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Python'da Word2Vec Eğitimi:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)