Gensim Word2Vec uygulamasındaki dönem sayısı


14

Word2Vec uygulamasında bir iterparametre vargensim

class gensim.models.word2vec.Word2Vec (cümleler = Yok, boyut = 100, alfa = 0.025, pencere = 5, min_count = 5, max_vocab_size = Yok, örnek = 0, tohum = 1, işçiler = 1, min_alpha = 0.0001, sg = 1, hs = 1, negatif = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = Yok, sort_vocab = 1)

dönem sayısını belirten, yani:

iter = korpus üzerindeki yineleme (dönem) sayısı.

Bunun modelin ceset üzerinde geliştirilmesine yardımcı olup olmadığını bilen var mı?

iterVarsayılan olarak 1 değerine ayarlanmasının bir nedeni var mı ? Hayır artırmak çok etkisi yoktur. çağların?

Hayırın nasıl belirleneceğine dair bilimsel / ampirik bir değerlendirme var mı? çağların?

Sınıflandırma / regresyon görevinden farklı olarak, vektörler denetimsiz bir şekilde üretildiğinden ve amaç fonksiyonu basitçe hiyerarşik softmax veya negatif örnekleme olduğundan ızgara arama yöntemi gerçekten işe yaramaz.

Hayır kısa kesmek için erken bir durdurma mekanizması var mı. vektörler yakınsadığı zaman çağı? Ve hiyerarşik softmax veya negatif örnekleme hedefi birleşebilir mi?

Yanıtlar:


5

Dönem sayısını artırmak genellikle kelime gösterimlerinin kalitesine yarar sağlar. Hedeflerde kelime düğünlerini metin sınıflandırma özellikleri olarak çığlıkları 5 yerine 15'e ayarlamak için kullanmak olduğu yerlerde gerçekleştirdim.


2

Baktım burada ve 1 5. olarak değiştirildi varsayılan değer Görünüşe yazarlar inandığı, daha dönemini sonuçları iyileştirecektir .

Henüz deneyimlerimden anlatamam.


2

W2v modelimi google news 300'de [2, 10, 100] dönemler için eğittim ve en iyisi 10 dönemdeydi. Tüm bu bekleyişten sonra, 100 dönemin kötü olduğu için şok oldum.

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

Yineleme sayısını (dönem sayısı) artırmak eğitim süresini önemli ölçüde artırır. Word2Vec, yalnızca büyük miktarda belge beslerseniz kaliteli sonuçlar verir, bu nedenle sonuçta elde edilen kelime düğünlerini daha doğru hale getirmesine rağmen, iki kez bile döngü yapmak makul değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.