Word2vec'deki sözcük vektörlerinin özellikleri


9

Duygu analizi yapmaya çalışıyorum. Kelimeleri sözcük vektörlerine dönüştürmek için word2vec modelini kullanıyorum. 'Cümleler' adlı bir listedeki tüm cümleleri kullandığımı ve bu cümleleri aşağıdaki gibi word2vec'e geçirdiğimi varsayalım:

model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300,   window=5, sample=1e-3)

Kelime vektörleri için çaylak olduğum için iki şüphem var.
1- Özellik sayısının 300 olarak ayarlanması bir kelime vektörünün özelliklerini tanımlar. Peki bu özellikler ne anlama geliyor? Bu modeldeki her kelime 1x300 numpy dizisi ile temsil ediliyorsa, bu 300 özellik o kelime için ne ifade eder?

2- Yukarıdaki modelde 'sample' parametresi ile temsil edilen aşağı örnekleme gerçekte ne yapar?

Şimdiden teşekkürler.

Yanıtlar:


10

1- Özelliklerin sayısı: Sinir ağı modeli açısından, projeksiyon (gizli) katmanındaki nöron sayısını temsil eder. İzdüşüm tabakası dağılımsal hipotez üzerine inşa edildiğinden, her sözcük için sayısal vektör, bağlam sözcükleriyle ilişkisini gösterir.

Bu özellikler, denetimsiz bir yöntem olduğu için sinir ağı tarafından öğrenilir. Her vektörün birkaç semantik özelliği vardır. Örneğin, klasik örneği ele alalım V(King) -V(man) + V(Women) ~ V(Queen)ve her kelime 300-d vektör ile temsil edilir. V(King)Kraliyet, krallık, erkeklik, insanın belli bir sırayla semantik özelliklerini taşıyacaktır. V(man)erkeklik, insan, belli bir sırayla çalışır. Böylece V(King)-V(Man)yapıldığında erkeklik, insan özellikleri etkisiz hale gelecek ve V(Women)kadınlığa sahip olan eklendiğinde insan özellikleri eklenecek ve böyleceV(Queen). İlginç olan, bu özelliklerin vektörde belirli bir sırada kodlanmasıdır, böylece toplama, çıkarma gibi sayısal hesaplamalar mükemmel çalışır. Bu, sinir ağındaki denetimsiz öğrenme yönteminin doğasından kaynaklanmaktadır.

2- İki yaklaşım algoritması vardır. Hierarchical softmaxve negative sampling. Örnek parametresi verildiğinde negatif örnekleme gerekir. Hiyerarşik softmax durumunda, her sözcük vektörü için bağlam sözcüklerine pozitif çıktılar verilir ve sözcük dağarcığındaki diğer tüm kelimelere negatif çıktılar verilir. Zaman karmaşıklığı sorunu negatif örnekleme ile çözülür. Negatif örneklemede olduğu gibi, tüm kelime dağarcığından ziyade, kelime dağarcığının sadece örneklenmiş bir kısmına negatif çıktılar verilir ve vektörler, önceki yöntemden çok daha hızlı olan eğitilir.


Word2vec özelliklerinin bu yorumu yanıltıcıdır. Uzayda erkeklik boyutu veya vektörde telif hakkı öğesi yoktur. Durum böyleyse, 300 boyutlu bir vektör alanı sadece 300 bağımsız semantik ikilemi temsil edebilir.
Dan Hicks

@DanHicks: Her özellikten bir uzay boyutu olarak bahsetmedim. Az önce bu semantik özelliklerin vektörde belirli bir sırayla kodlandığını, böylece matematiksel işlemlerin mümkün olduğunu söyledim.
yazhi

"Özellikler" normal olarak vakaları temsil etmek için kullanılan değişkenleri ifade eder - bu durumda, vektör vektörleri / vektör uzayının boyutlarının elemanları. @ Nain'in sorusu açıkça "özellikleri" bu şekilde kullanır. Bahsettiğiniz "anlambilimsel özellikler" en iyi şekilde word2vec'in analojileri nasıl ele aldığı hakkında konuşmanın belirsiz bir yoludur. Bunlar, vektör vektörlerinin özellikleri değildir.
Dan Hicks

1
haklısın .. "Anlamsal özellikleri" "anlamsal özellikleri" olarak düzenledim ve cevaptaki "özellikler" sadece vektörün boyutlarını temsil ediyor.
yazhi

0
  1. Dağılım hipotezine göre, kelimenin vektöründeki bireysel boyut, gerçek dünyadaki kelime hakkında fazla bir anlam ifade etmez. Bireysel boyutlar hakkında endişelenmeniz gerekiyor. Sorunuz öyleyse, boyut sayısını nasıl seçmeliyim, sadece verileriniz için denemeye dayanır ve 100'den 1000'e kadar çıkabilir. Wiki metninde eğitimin yapıldığı birçok deney için 300 boyutu çoğunlukla en iyisini verir sonuç.
  2. Sample param, yüksek frekanslı kelimeleri budamak için kullanılan parametredir. Örneğin, "" "" "idi", içteki kelimeyi tahmin ederken bu stopwords pencerede dikkate alınmaz ve varsayılan değer, frekansı daha yüksek olan bu stop sözcüklerini tanımlamak için iyi çalışır.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.