Kabaca 60 milyon ibareyi bir vektör boşluğuna yerleştirmeye çalışıyorum , sonra aralarındaki kosinüs benzerliğini hesaplıyorum . Ben sklearn's CountVectorizer
unigram ve bigram üreten özel inşa tokenizer fonksiyonu ile kullanıyorum. Anlamlı temsiller elde etmek için, çok sayıda sütuna izin vermem gerekiyor, satır sayısı bakımından doğrusal. Bu inanılmaz derecede seyrek matrislere yol açar ve performansı öldürür. Sadece yaklaşık 10.000 sütun olsaydı bu kadar kötü olmazdı, ki bence kelime düğünleri için oldukça makul.
Google’ları kullanmayı denemeyi düşünüyorum word2vec
çünkü çok daha düşük boyutlu ve daha yoğun düğünler ürettiğinden eminim. Ama ondan önce, ilk bakışta görünmesi gereken başka düğünler var mı? Temel gereksinim yaklaşık 60 milyon ifadeyi (satır) ölçeklendirmek olabilir.
Ben kelime düğün alanında oldukça yeniyim, bu yüzden herhangi bir tavsiye yardımcı olacaktır.
Ayrıca, performansı artırmak için zaten tekil değer ayrışımı kullandığımı da eklemeliyim.