Word2Vec ve Cümle2Vec ve Doc2Vec


18

Geçenlerde açısından rastladım Word2Vec , Sentence2Vec ve Doc2Vec ve ben vektör semantik yeni olduğum gibi karıştı tür. Birisi lütfen bu yöntemlerin farklılığını basit kelimelerle detaylandırabilir mi? Her yöntem için en uygun görevler nelerdir?

Yanıtlar:


22

İsimler oldukça basittir ve size vektör gösterimleri hakkında net bir fikir vermelidir.

Word2Vec Algoritması, kelimelerin dağıtılmış anlamsal temsilini oluşturur. Eğitime iki temel yaklaşım vardır: Dağıtılmış Kelime Torbası ve Atlama gram modeli. Biri orta kelimeyi kullanarak bağlam kelimelerini tahmin etmeyi, diğeri ise bağlam kelimelerini kullanarak kelimeyi tahmin etmeyi içerir. Sen Mikolov en çok ayrıntılı olarak bu konuda bilgi edinebilir kağıt .

Aynı fikir, kelimeler için özellik temsillerini öğrenmek yerine, cümleler veya belgeler için öğreneceğiniz cümlelere ve belgelerin tamamına genişletilebilir. Bununla birlikte, bir genel Cümle Bilgisi hakkında fikir edinmek için, bunu cümledeki tüm kelimelerin vektör temsili matematiksel ortalaması olarak düşünün. Sadece ortalamayı alarak ve herhangi bir TranslationToVec eğitimi almadan çok iyi bir yaklaşım elde edebilirsiniz, ancak elbette sınırlamaları vardır.

Doc2Vec, TranslationToVec veya daha çok Word2Vec fikrini genişletir, çünkü cümleler de belge olarak kabul edilebilir. Eğitim fikri benzerliğini koruyor. Daha fazla bilgi için Mikolov'un Doc2Vec belgesini okuyabilirsiniz .

Uygulamalara gelmek, göreve bağlı olacaktır. Bir Word2Vec, sözcükler arasındaki anlamsal ilişkileri etkili bir şekilde yakalar, böylece kelime benzerliklerini hesaplamak için kullanılabilir veya duyarlılık analizi vb. Gibi çeşitli NLP görevlerine özellik olarak beslenebilir. sadece kelimeler değil. Örneğin, anlamaya çalışıyorsanız, iki yığın taşma sorusunun birbirinin kopyası olup olmadığı.

Basit bir google araması sizi bu algoritmaların bir dizi uygulamasına yönlendirecektir.


Kelime vektörlerinin ortalaması ile doc2vec kullanımı arasındaki fark nedir? Doc2vec, vektörü oluştururken cümledeki bir kelimenin çevresini açıklıyor mu (word2vec yapmıyorken)?
John Strood

1
Doc2Vec, kelimelerle birlikte belge için rastgele başlatılmış bir vektör öğrenir (belge bir cümle olabilir). Kelime vektörlerinin manuel olarak ortalaması aynı kapasitede çalışmaz çünkü belgenin tamamından öğrenememektedir. Son zamanlarda Paragram vektörleri, belge benzerliği vb. İle çalışırken son derece kullanıldı.
Himanshu Rai
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.