Denetimli öğrenme ile kullanıma uygun bir belgeyi özellik vektörüne eşlemek için gömme kelimesini nasıl kullanırım?
Bir kelime gömme her kelime haritalar bir vektör burada, , bazı değil çok sayıda (örneğin, 500) 'dir. Popüler kelime kalıplamaların dahil word2vec ve Eldiven .v ∈ R d d
Belgeleri sınıflandırmak için denetimli öğrenmeyi uygulamak istiyorum. Şu anda her belgeyi bir sözcük dizisi temsili kullanarak bir özellik vektörüyle eşleştiriyorum, sonra hazır bir sınıflandırıcı kullanıyorum. Sözcük gömme kelimesinde yer alan semantik bilgiden yararlanmak için, sözcük torbası özellik vektörünü, önceden eğitilmiş sözcük gömme temelli bir şeyle değiştirmek istiyorum. Bunu yapmanın standart bir yolu var mı?
Bazı olasılıkları hayal edebiliyorum, ama en mantıklı olan bir şey olup olmadığını bilmiyorum. Aday yaklaşımları düşündüm:
Belgedeki her kelime için vektörü hesaplayabilir ve hepsini ortalayabilirim. Ancak, bu çok fazla bilgi kaybedebilir gibi görünüyor. Mesela, sözcüklerin temsili ile, sınıflandırma göreviyle oldukça ilgili birkaç kelime varsa ve çoğu kelime ilgisizse, sınıflandırıcı kolayca öğrenebilir; Belgedeki tüm kelimeler için vektörleri ortalamalandırırsam, sınıflandırıcının şansı yoktur.
Vektörlerin bütün kelimeler için birleştirilmesi işe yaramaz çünkü sabit boyutlu bir özellik vektörüne yol açmaz. Ayrıca kötü bir fikir gibi gözüküyor çünkü bir kelimenin spesifik yerleşimine aşırı duyarlı olacak.
Tüm kelimelerin kelime dağarcığını sabit bir küme kümesine koymak için gömme kelimesini kullanabilirim, örneğin, vektörlerdeki kosinüs benzerliğini bir kelime benzerliği ölçüsü olarak kullanıyorum. Yerine torba-of-the kelimelerin Sonra, ben bir çanta-of-kümeleri olabilir:, 1000 vektör olabilir classifer için özellik vektörü ben kaynağını nereden inci bileşen sayıları belgede o sözcük sayısı kümenin bir parçasıdır .ben
kelimesi verildiğinde , bu kelime gömme işlemleri ve benzerlik puanlarını en benzer 20 kelimeden bir küme hesaplamama izin . Bunu kullanarak sözcük çantası benzeri bir özellik vektörünü uyarlayabilirim. Kelimesini görünce kelimeye karşılık gelen elemanının artan ek olarak, ile , ayrıca sözcüğüne karşılık elemanı artırmak olabilir ile sözcüğüne karşılık elemanı artırmak, ile , vb.w 1 , … , w 20 s 1 , … , s 20 w w 1 w 1 s 1 s 2 s 2
Belge sınıflandırma için iyi çalışması muhtemel herhangi bir özel yaklaşım var mı?
Paragraf2vec veya doc2vec aramıyorum; bunlar büyük veri birimlerinde eğitim gerektirir ve benim büyük bir veri şirketim yok. Bunun yerine, varolan bir kelimeyi gömmek kullanmak istiyorum.