Farklı kaynaklarda bahsedilen aynı kelime arasındaki farkı karşılaştırmak istiyorum. Yani, yazarlar "demokrasi" gibi kötü tanımlanmış sözcükleri kullanmalarında nasıl farklılık gösterirler.
Kısa bir plan
- "Demokrasi" terimini anlatan kitapları düz metin olarak alın
- Her kitapta, yerini
democracyiledemocracy_%AuthorName% word2vecBu kitaplarda bir model eğitin- Arasındaki mesafeyi hesaplayın
democracy_AuthorA,democracy_AuthorBve diğer relabeled "demokrasi" bahseder
Böylece her yazarın "demokrasisi" karşılaştırma için kullanılan kendi vektörünü alır.
Ancak, word2vecgüvenilir vektörleri eğitmek için birden fazla kitaptan (her yeniden etiketlenmiş kelime yalnızca kitapların bir alt kümesinde gerçekleşir) çok daha fazlasını gerektiriyor gibi görünüyor . Resmi sayfası kelime milyarlarca dahil veri setlerini önerir.
Sadece bir yazarın kitaplarının alt kümesinin, bu tür bir çıkarsama word2vecveya varsa alternatif araçlarla yapabilmesi için ne kadar büyük olması gerektiğini sormak istedim ?
windowBağlamda fazla kelimenin kelime için modeli eğitmek için nasıl kullanıldığını parametre setleri w