Pratik bir bakış açısından ...
LDA, belgelerde hangi kelimelerin birlikte gerçekleştiğini düşünen, ancak kelimelerin içeriğine hemen dikkat etmeyen bir sözcük çantası girişi ile başlar. Bu, kelimelerin belgedeki herhangi bir yerde ve belirli bir düzeyde bilgi çıkaran herhangi bir sırada görünebileceği anlamına gelir. Buna karşılık word2vec, bir kelimenin kullanıldığı bağlamla ilgilidir - belki de kesin bir düzen olmasa da.
LDA'nın "başlıkları" matematiksel bir yapıdır ve bunları gerçek insan başlarıyla karıştırmamalısınız. İnsan yorumuna sahip olmayan konularla bitebilir - sürecin asıl konulardan çok eseri gibidirler - ve temelde aynı insan konusunu kapsayan konular da dahil olmak üzere farklı soyutlama seviyelerinde konularla sonuçlanabilir. Biraz çay yaprakları okumak gibi.
LDA'yı verileri araştırmak için faydalı buldum, ancak bir çözüm sağlamak için çok kullanışlı değil, ancak kilometreniz değişebilir.
Word2vec hiçbir zaman doğrudan konu oluşturmaz. Kelimeleri benzer kullanıma dayalı yüksek boyutlu bir uzaya yansıtır, bu nedenle, uzayda birbirinin yanında olabileceğini düşündüğünüz kelimeler açısından kendi sürprizlerine sahip olabilir.
Kelimelerin "benzer" olup olmadığını belirlemek için ikisini de kullanabilirsiniz. LDA ile: aynı konudaki kelimelerin benzer ağırlıkları var mı? Word2vec ile: gömme alanındaki yakınlar (bir ölçüme göre).
Belgelerin benzer olup olmadığını belirlemek için ikisini de kullanabilirsiniz. LDA ile benzer bir konu karışımı arayacaktınız ve word2vec ile belge kelimelerinin vektörlerini eklemek gibi bir şey yapacaksınız. ("Belge" bir cümle, paragraf, sayfa veya belgenin tamamı olabilir.) Doc2vec, belgelerin doğrudan karşılaştırılmasını sağlayan değiştirilmiş bir word2vec sürümüdür.
LDA, sözcük torba yaklaşımıyla bağlamsal bilgilerden bazılarını atarken, word2vec'in sahip olmadığı konulara (ya da "konulara") sahiptir. Bu nedenle doc2vec'i kullanmak için "Bana buna benzer belgeleri göster" derken, LDA'da "A konusunun belirgin olduğu belgeleri göster" deyin. (Yine, "A konusunun" belgelerinizdeki matematiksel bir süreçten ortaya çıktığını bilmek ve ardından en çok hangi insan konusuna karşılık geldiğini siz çözersiniz.)