«word-embeddings» etiketlenmiş sorular

Kelime gömme, NLP'de kelimelerin kelime boyutuna göre düşük boyutlu bir alanda gerçek sayıların vektörlerine eşlendiği bir dizi dil modelleme ve özellik öğrenme tekniklerinin toplu adıdır.

2
Yapay sinir ağına gömme katmanı nedir?
Birçok sinir ağı kütüphanesinde, Keras veya Lasagne'de olduğu gibi 'katmanları gömmek' vardır . Belgeleri okuduğumuza rağmen işlevini anladığımdan emin değilim. Örneğin, Keras belgelerinde şöyle yazıyor: Pozitif tamsayıları (indeksleri) sabit büyüklükteki vektörlere dönüştürün, örn. [[4], [20]] -> [[0.25, 0.1], [0.6, -0.2]] Bilgili bir kişi ne yaptığını ve ne zaman kullanacağınızı açıklayabilir …

2
Keras 'Embedding' katmanı nasıl çalışır?
Keras kütüphanesinde 'Katıştırma' katmanının çalışmasını anlamalısınız. Python'da şu kodu çalıştırıyorum import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) aşağıdaki çıktıyı verir input_array = [[4 1 3 3 3]] output_array = …

3
Bir özellik vektörü elde etmek için kelime gömme işlemlerini tüm belgeye uygulayın
Denetimli öğrenme ile kullanıma uygun bir belgeyi özellik vektörüne eşlemek için gömme kelimesini nasıl kullanırım? Bir kelime gömme her kelime haritalar bir vektör burada, , bazı değil çok sayıda (örneğin, 500) 'dir. Popüler kelime kalıplamaların dahil word2vec ve Eldiven .v ∈ R d dwwwv ∈ Rdv∈Rdv \in \mathbb{R}^dddd Belgeleri sınıflandırmak …


3
R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]
Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

1
Duygu analizi için paragraf vektörlerini kullanma konusunda bildirilen son teknoloji performans çoğaltılmış mı?
Le ve Mikolov'un " Cümle ve Belgelerin Dağıtılmış Temsilleri " başlıklı ICML 2014 belgesindeki sonuçlardan etkilendim . "Paragraf vektörleri" olarak adlandırdıkları teknik, word2vec modelinin bir uzantısına dayanarak, keyfi olarak uzun paragrafların / belgelerin denetimsiz temsillerini öğrenir. Bu makale, bu teknik kullanılarak duyarlılık analizinde en son teknolojiye sahip performansı göstermektedir. Bu …

1
Negatif örnekleme word2vec'de nasıl çalışır?
Word2vec bağlamında negatif örnekleme kavramını anlamaya çalışıyorum. [Negatif] örnekleme fikrini sindiremiyorum. Örneğin Mikolov gazetelerinde olumsuz örnekleme beklentisi şu şekilde formüle edilmiştir: günlükσ( ⟨ W , c ⟩ ) + k ⋅ ecN-∼ PD[ logσ( - ⟨ w , CN-⟩ ) ] .log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim …




3
Word2Vec'in atlama gram modeli çıktı vektörlerini nasıl oluşturur?
Word2Vec algoritmasının atlama gram modelini anlamada sorunlar yaşıyorum. Sürekli kelime torbasında, bağlam kelimelerinin Sinir Ağı'na nasıl "sığabileceğini" görmek kolaydır, çünkü tek bir sıcak kodlama gösterimlerinin her birini W giriş matrisi ile çarptıktan sonra temel olarak ortalamalandırırsınız. Bununla birlikte, atlama-gram söz konusu olduğunda, giriş kelimesi vektörünü yalnızca bir sıcak kodlamayı giriş …

1
Performans açısından Word gömme algoritmaları
Kabaca 60 milyon ibareyi bir vektör boşluğuna yerleştirmeye çalışıyorum , sonra aralarındaki kosinüs benzerliğini hesaplıyorum . Ben sklearn's CountVectorizerunigram ve bigram üreten özel inşa tokenizer fonksiyonu ile kullanıyorum. Anlamlı temsiller elde etmek için, çok sayıda sütuna izin vermem gerekiyor, satır sayısı bakımından doğrusal. Bu inanılmaz derecede seyrek matrislere yol açar …

2
Boyutları azaltmak için t-SNE için parametreler nasıl belirlenir?
Kelime düğünlerinde çok yeniyim. Öğrenmenin ardından belgelerin nasıl göründüğünü görselleştirmek istiyorum. T-SNE'nin bunu yapmak için bir yaklaşım olduğunu okudum. Gömme boyutu olarak 250 boyutta 100K dokümanım var. Ayrıca birkaç paket mevcuttur. Bununla birlikte, t-SNE için, daha fazla öğrenmeye devam etmem gereken kaç yineleme veya alfa değeri veya esneklik değeri bilmiyorum. …

1
SVD'den önce bir kelime eşgüdüm matrisine noktasal karşılıklı bilgi uygulamanın avantajları ve dezavantajları nelerdir?
Kelime düğünleri oluşturmanın bir yolu aşağıdaki gibidir ( ayna ): Bir şirket alın, örneğin "Uçmayı seviyorum. NLP'yi seviyorum. Derin öğrenmeyi seviyorum." Bundan cooccurrence matrisi kelimesini oluşturun: SVD gerçekleştirin ve U'nun ilk sütunlarını koruyun.XXXkkk alt her satırı , satırın temsil ettiği kelimenin gömme sözcüğü olacaktır (satır 1 = "I", satır 2 …

2
Kelimelerin Sürekli Çantası hakkında soru
Bu cümleyi anlamakta güçlük çekiyorum: Önerilen ilk mimari, doğrusal olmayan gizli katmanın kaldırıldığı ve projeksiyon katmanının tüm kelimeler (yalnızca projeksiyon matrisi için değil) paylaşıldığı ileri beslemeli NNLM'ye benzer; böylece, tüm kelimeler aynı pozisyona yansıtılır (vektörlerinin ortalaması alınır). Projeksiyon katmanı vs projeksiyon matrisi nedir? Tüm kelimelerin aynı konuma yansıtıldığını söylemek ne …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.