Word2Vec ve Doc2Vec hem dağıtım gösterimi hem de dağıtım gösterimi midir?


10

Dağılım gösteriminin benzer bağlamda ortaya çıkan kelimelerin benzer anlamlara sahip olma eğiliminde olduğu dağılım hipotezine dayandığını okudum.

Word2Vec ve Doc2Vec'in her ikisi de bu hipoteze göre modellenmiştir. Ama, orijinal kağıt, hatta başlıklı edilir Distributed representation of words and phrasesve Distributed representation of sentences and documents. Yani, bu algoritmalar dağılımsal temsile veya dağıtılmış temsile dayanmaktadır.

LDA ve LSA gibi diğer modellere ne dersiniz?

Yanıtlar:


5

Etkili bir şekilde, Word2Vec / Doc2Vec, distributional hypothesisher bir kelimenin bağlamının yakındaki kelimeler olduğu yere dayanır . Benzer şekilde, LSA tüm belgeyi bağlam olarak alır. Her iki teknik de word embeddingsemantik olarak ilişkili kelimeleri birbirine yakın tutarken problem gömülü kelimeleri sürekli bir vektör uzayda çözer .

Öte yandan, LDA aynı sorunu çözmek için yapılmamıştır. topic modelingBir dizi belgede gizli konuları bulan farklı bir sorunla ilgileniyorlar .


Google gruplarından, farklı bakış açılarında dağıtılmış ve dağıtıcı olduğunu belirten bir yanıt aldım. Vektör uzayda dağıtılmış özellikler açısından kullanılan ve dağıtılan hipotez açısından dağılım.
yazhi

evet, temsil, bir kelime vektörünün birden fazla kavramı ele geçirmesi anlamında dağıtılır, her kavramın kendisi bir vektördür. Örneğin: iki kavram yakalayabilir cinsiyet ve , v q u e e n yakalar cinsiyet ve . Bu yüzden v k i , n g - v q u e , e n ~ v m bir N - v w O m bir nvkbenngmaleroyalvqueenfemaleroyalvkbenng-vqueen~vmbirn-vwÖmbirn
Tu N.

2

Turian, Joseph, Lev Ratinov ve Yoshua Bengio. " Kelime gösterimleri: yarı denetimli öğrenme için basit ve genel bir yöntem ." Hesaplamalı dilbilim derneğinin 48. yıllık toplantısının bildirileri. Hesaplamalı Dilbilim Derneği, 2010. dağılımsal gösterimleri ve dağıtılmış gösterimleri aşağıdaki gibi tanımlayınız:

  • FWxCWFwwFcFFwWFwFd<<CFwwdgF

  • Bir dağıtık gösterimi , yoğun düşük boyutlu ve gerçek değerli olduğunu. Dağıtık kelime temsillerine kelime düğün denir. Gömmenin her bir boyutu, kelimenin yararlı bir sözdizimsel ve anlambilimsel özelliklerini yakalayan gizli bir özelliğini temsil eder. Dağıtılmış bir gösterim, boyut sayısında üstel sayıda kümeyi temsil edebilmesi açısından kompakttır.

FYI: Kelime vektörleri, kelime gösterimleri ve vektör düğünleri arasındaki fark nedir?


2
Aynı karışıklık da yanıtta kalıyor. Her iki gösterimden de özelliklere sahiptir. Bakalım ortak noktası ne. Distributional: WxC boyutunda bir matrise sahiptir ve daha sonra Wxd'ye indirgenmiştir, burada d gömme vektör boyutudur. Bağlamı belirlemek için pencere boyutlarını kullanır. Distributed: Yoğun, düşük boyutlu vektörler. Bu boyutlardaki gizli özellikleri (anlamsal özellikler) korur.
yazhi

2

Google Kutuzov'dan Andrey Kutuzov'un yanıtı tatmin edici geldi

Word2vec algoritmalarının her ikisine de dayalı olduğunu söyleyebilirim.

İnsanlar derken distributional representation, genellikle dilsel yönü ifade ederler: anlam bağlamdır, kelimeyi şirketi ve diğer ünlü alıntılarla bilin.

Fakat insanlar derken distributed representation, çoğunlukla dilbilim ile ilgisi yoktur. Daha çok bilgisayar bilimi yönü ile ilgilidir. Mikolov'u ve diğerlerini doğru anlarsam distributed, makalelerindeki kelime , bir vektör temsilinin her bir bileşeninin kendine ait bir anlamı olmadığı anlamına gelir. Yorumlanabilir özellikler (örneğin, word2vec durumunda kelime bağlamları) gizlenir vedistributed yorumlanamayan vektör bileşenleri arasındadır: her bileşen yorumlanabilir birkaç özellikten sorumludur ve yorumlanabilir her özellik birkaç bileşene bağlıdır.

Bu nedenle, word2vec (ve doc2vec), sözcüksel anlambilimi temsil etmenin bir yolu olarak teknik olarak dağıtılmış gösterimleri kullanır. Aynı zamanda kavramsal olarak dağılımsal hipoteze dayanır: sadece dağıtım hipotezi doğru olduğu için çalışır (kelime anlamları tipik bağlamlarıyla ilişkilidir).

Ama tabii ki genellikle terimler distributedve distributionalbirbirlerinin yerine kullanılır, yanlış anlama artar :)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.