Farklı kaynaklarda bahsedilen aynı kelime arasındaki farkı karşılaştırmak istiyorum. Yani, yazarlar "demokrasi" gibi kötü tanımlanmış sözcükleri kullanmalarında nasıl farklılık gösterirler.
Kısa bir plan
- "Demokrasi" terimini anlatan kitapları düz metin olarak alın
- Her kitapta, yerini
democracy
iledemocracy_%AuthorName%
word2vec
Bu kitaplarda bir model eğitin- Arasındaki mesafeyi hesaplayın
democracy_AuthorA
,democracy_AuthorB
ve diğer relabeled "demokrasi" bahseder
Böylece her yazarın "demokrasisi" karşılaştırma için kullanılan kendi vektörünü alır.
Ancak, word2vec
güvenilir vektörleri eğitmek için birden fazla kitaptan (her yeniden etiketlenmiş kelime yalnızca kitapların bir alt kümesinde gerçekleşir) çok daha fazlasını gerektiriyor gibi görünüyor . Resmi sayfası kelime milyarlarca dahil veri setlerini önerir.
Sadece bir yazarın kitaplarının alt kümesinin, bu tür bir çıkarsama word2vec
veya varsa alternatif araçlarla yapabilmesi için ne kadar büyük olması gerektiğini sormak istedim ?
window
Bağlamda fazla kelimenin kelime için modeli eğitmek için nasıl kullanıldığını parametre setleri w