«word2vec» etiketlenmiş sorular

Word2vec, yüksek boyutlu bir uzayda kelimeleri vektörler olarak temsil eden bir sinir ağıdır.

5
LDA vs word2vec
Latent Dirichlet Allocation ve word2vec arasındaki kelimelerin benzerliğini hesaplamak için benzerliğin ne olduğunu anlamaya çalışıyorum . Anladığım kadarıyla, LDA sözcükleri gizli konuların bir olasılık vektörüne eşlerken, word2vec bunları gerçek sayıların bir vektörüne eşler (noktasal karşılıklı bilginin tekil değer ayrışmasıyla ilgili, bkz . O. Levy, Y. Goldberg, "Sinir Kelime Gömme" Örtük …

3
Bir özellik vektörü elde etmek için kelime gömme işlemlerini tüm belgeye uygulayın
Denetimli öğrenme ile kullanıma uygun bir belgeyi özellik vektörüne eşlemek için gömme kelimesini nasıl kullanırım? Bir kelime gömme her kelime haritalar bir vektör burada, , bazı değil çok sayıda (örneğin, 500) 'dir. Popüler kelime kalıplamaların dahil word2vec ve Eldiven .v ∈ R d dwwwv ∈ Rdv∈Rdv \in \mathbb{R}^dddd Belgeleri sınıflandırmak …


3
R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]
Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

1
Negatif örnekleme word2vec'de nasıl çalışır?
Word2vec bağlamında negatif örnekleme kavramını anlamaya çalışıyorum. [Negatif] örnekleme fikrini sindiremiyorum. Örneğin Mikolov gazetelerinde olumsuz örnekleme beklentisi şu şekilde formüle edilmiştir: günlükσ( ⟨ W , c ⟩ ) + k ⋅ ecN-∼ PD[ logσ( - ⟨ w , CN-⟩ ) ] .log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim …


4
Negatif kosinüs benzerliğini yorumlama
Benim sorum aptalca olabilir. Bu yüzden önceden özür dilerim. Stanford NLP grubu ( link ) tarafından önceden eğitilmiş GLOVE modelini kullanmaya çalışıyordum . Ancak, benzerlik sonuçlarımın bazı negatif sayılar gösterdiğini fark ettim. Bu, hemen sözcük-vektör veri dosyasına bakmamı istedi. Görünüşe göre, sözcük vektörlerindeki değerlerin negatif olmasına izin verildi. Bu neden …

2
SpaCy'deki benzerlik yöntemi nasıl hesaplanır?
Bu doğru yığın sitesi olup olmadığından emin değilsiniz, ama işte gidiyor. .Similiarity yöntemi nasıl çalışır? Vay canına, harika! Onun tfidf modeli daha kolay olabilir, ama sadece bir kod satırı ile w2v ?! Onun içinde Spacy 10 hat öğretici andrazhribernik gösterisi bize jeton, rak yüzlerce, kelime parçaları ve dokümanlar üzerinde çalıştırılabilir …


3
Word2Vec'in atlama gram modeli çıktı vektörlerini nasıl oluşturur?
Word2Vec algoritmasının atlama gram modelini anlamada sorunlar yaşıyorum. Sürekli kelime torbasında, bağlam kelimelerinin Sinir Ağı'na nasıl "sığabileceğini" görmek kolaydır, çünkü tek bir sıcak kodlama gösterimlerinin her birini W giriş matrisi ile çarptıktan sonra temel olarak ortalamalandırırsınız. Bununla birlikte, atlama-gram söz konusu olduğunda, giriş kelimesi vektörünü yalnızca bir sıcak kodlamayı giriş …

1
Performans açısından Word gömme algoritmaları
Kabaca 60 milyon ibareyi bir vektör boşluğuna yerleştirmeye çalışıyorum , sonra aralarındaki kosinüs benzerliğini hesaplıyorum . Ben sklearn's CountVectorizerunigram ve bigram üreten özel inşa tokenizer fonksiyonu ile kullanıyorum. Anlamlı temsiller elde etmek için, çok sayıda sütuna izin vermem gerekiyor, satır sayısı bakımından doğrusal. Bu inanılmaz derecede seyrek matrislere yol açar …

2
Boyutları azaltmak için t-SNE için parametreler nasıl belirlenir?
Kelime düğünlerinde çok yeniyim. Öğrenmenin ardından belgelerin nasıl göründüğünü görselleştirmek istiyorum. T-SNE'nin bunu yapmak için bir yaklaşım olduğunu okudum. Gömme boyutu olarak 250 boyutta 100K dokümanım var. Ayrıca birkaç paket mevcuttur. Bununla birlikte, t-SNE için, daha fazla öğrenmeye devam etmem gereken kaç yineleme veya alfa değeri veya esneklik değeri bilmiyorum. …

2
LSTM kullanarak dil modelleme görevlerinde bilinmeyen kelimeleri işleme
Doğal bir dil işleme (NLP) görevi için sözcükler için gömme olarak genellikle word2vec vektörleri kullanılır. Bununla birlikte, word2vec vektörleri tarafından yakalanmayan birçok bilinmeyen kelime olabilir, çünkü bu kelimeler eğitim verilerinde yeterince sık görülmemektedir (birçok uygulama, kelimeye bir kelime eklemeden önce minimum sayıyı kullanır). Bu, özellikle kelimelerin genellikle yanlış yazıldığı Twitter'dan …

1
Word2vec'de çapraz entropi kaybının türevi
Ben cs224d çevrimiçi stanford sınıfı ders materyali ilk sorun seti ile yoluma çalışıyorum ve sorun 3A ile bazı sorunlar yaşıyorum: Softmax tahmin fonksiyonu ve çapraz entropi kaybı fonksiyonu ile atlama gram word2vec modeli kullanırken, biz degradeleri tahmin edilen sözcük vektörlerine göre hesaplamak istiyorum. Softmax fonksiyonu göz önüne alındığında: wben^= Pr …

1
Skipgram word2vec için degradeler
Stanford NLP derin öğrenme sınıfının yazılı ödev problemlerindeki problemleri yaşıyorum http://cs224d.stanford.edu/assignment1/assignment1_soln 3a'nın cevabını anlamaya çalışıyorum, burada orta kelime için vektörün türevini arıyorlar. Tahmin edilen bir kelime vektörü verildiğini varsayın vcvcv_{c}skipgram için orta kelimeye c karşılık gelir ve word2vec modellerinde bulunan softmax fonksiyonu ile kelime tahmini yapılır. y^Ö= p ( o …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.