Fakat metin sınıflandırması ile belgelerdeki konu modelleri arasındaki farkın ne olduğunu bilmiyorum
Text Classification
denetimli öğrenmenin bir biçimidir, dolayısıyla olası sınıflar kümesi önceden bilinir / tanımlanır ve değişmez.
Topic Modeling
denetimsiz öğrenmenin bir biçimidir (kümelenmeye benzer), bu nedenle olası konular kümesi bilinmez apriori'dir . Konu modelleri oluşturmanın bir parçası olarak tanımlanırlar. LDA gibi deterministik olmayan bir algoritma ile, algoritmayı her çalıştırdığınızda farklı konular elde edersiniz.
Text classification
genellikle birbirini dışlayan sınıfları içerir - bunları kovalar olarak düşünün.
Ancak aşağıdakileri yapmak zorunda değildir: doğru türde etiketlenmiş giriş verileri göz önüne alındığında, birbirini dışlamayan bir ikili sınıflandırıcılar dizisi ayarlayabilirsiniz.
Topic modeling
genellikle birbirini dışlamaz: aynı belgenin olasılık dağılımı birçok konuya yayılmış olabilir. Ayrıca, hiyerarşik konu modelleme yöntemleri de vardır.
Ayrıca, daha sonra bir konuyu tanımlamak için belgeler için konu modelini kullanabilir miyim? Bu belgelerin içindeki metni sınıflandırmak için sınıflandırmayı kullanabilir miyim?
Bir konu modelleme algoritmasıyla bir konuya atanan belgelerin tümünü alıp alamayacağınızı ve ardından bu koleksiyona bir sınıflandırıcı uygulayıp uygulayamayacağınızı soruyorsanız, evet, bunu kesinlikle yapabilirsiniz.
Yine de çok mantıklı olduğundan emin değilim: en azından, yukarıda konu koleksiyonunuz için belgeleri koleksiyonunuza ekleyeceğiniz bir eşik değeri seçmeniz gerekir (genellikle 0.05-0.1).
Kullanım durumunuzu ayrıntılı olarak açıklayabilir misiniz?
Bu arada, burada Java için MALLET kitaplığını kullanarak konu modelleme hakkında harika bir öğretici var: Konu Modelleme ve MALLET'e Başlarken