metin sınıflandırması ve konu modelleri arasındaki fark nedir?


20

Makine öğreniminde kümeleme ve sınıflandırma arasındaki farkı biliyorum, ancak belgeler için metin sınıflandırma ve konu modelleme arasındaki farkı anlamıyorum. Bir konuyu tanımlamak için belgeler üzerinde konu modellemesi kullanabilir miyim? Bu belgelerdeki metni sınıflandırmak için sınıflandırma yöntemlerini kullanabilir miyim?

Yanıtlar:


28

Metin Sınıflandırması

Size, her birinde bir etiket bulunan bir grup belge veriyorum. Sizden, belgelerin içeriğine neden bu etiketlerin kelimelerine göre verildiğini düşündüğünüzü öğrenmenizi rica ediyorum. Sonra size yeni belgeler veriyorum ve her biri için etiketin ne olması gerektiğini düşündüğümü soruyorum. Etiketlerin benim için bir anlamı var, senin için değil.

Konu Modelleme

Sana bir sürü belge, etiketsiz veriyorum. Sizden her birinin "hakkında" olduğu bazı konuları belirleyerek belgelerin neden sözcükleri içerdiklerini açıklamanızı rica ediyorum. Bana her bir belgede her birinin ne kadarının olduğunu söyleyerek konuları söylüyorsunuz ve eğer bir şey varsa konuların ne anlama geldiğine ben karar veriyorum.

"Bir konuyu tanımla" veya "metni sınıflandır" ile ne yaptığınızı netleştirmeniz gerekir.


10

Fakat metin sınıflandırması ile belgelerdeki konu modelleri arasındaki farkın ne olduğunu bilmiyorum

Text Classificationdenetimli öğrenmenin bir biçimidir, dolayısıyla olası sınıflar kümesi önceden bilinir / tanımlanır ve değişmez.

Topic Modelingdenetimsiz öğrenmenin bir biçimidir (kümelenmeye benzer), bu nedenle olası konular kümesi bilinmez apriori'dir . Konu modelleri oluşturmanın bir parçası olarak tanımlanırlar. LDA gibi deterministik olmayan bir algoritma ile, algoritmayı her çalıştırdığınızda farklı konular elde edersiniz.

Text classificationgenellikle birbirini dışlayan sınıfları içerir - bunları kovalar olarak düşünün.
Ancak aşağıdakileri yapmak zorunda değildir: doğru türde etiketlenmiş giriş verileri göz önüne alındığında, birbirini dışlamayan bir ikili sınıflandırıcılar dizisi ayarlayabilirsiniz.

Topic modelinggenellikle birbirini dışlamaz: aynı belgenin olasılık dağılımı birçok konuya yayılmış olabilir. Ayrıca, hiyerarşik konu modelleme yöntemleri de vardır.

Ayrıca, daha sonra bir konuyu tanımlamak için belgeler için konu modelini kullanabilir miyim? Bu belgelerin içindeki metni sınıflandırmak için sınıflandırmayı kullanabilir miyim?

Bir konu modelleme algoritmasıyla bir konuya atanan belgelerin tümünü alıp alamayacağınızı ve ardından bu koleksiyona bir sınıflandırıcı uygulayıp uygulayamayacağınızı soruyorsanız, evet, bunu kesinlikle yapabilirsiniz.

Yine de çok mantıklı olduğundan emin değilim: en azından, yukarıda konu koleksiyonunuz için belgeleri koleksiyonunuza ekleyeceğiniz bir eşik değeri seçmeniz gerekir (genellikle 0.05-0.1).

Kullanım durumunuzu ayrıntılı olarak açıklayabilir misiniz?

Bu arada, burada Java için MALLET kitaplığını kullanarak konu modelleme hakkında harika bir öğretici var: Konu Modelleme ve MALLET'e Başlarken


4

Konu modelleri genellikle denetimsizdir . "Denetimli konu modelleri" de vardır; ancak o zaman bile bir sınıf içindeki konuları modellemeye çalışırlar .

Örneğin, bir "futbol" sınıfınız olabilir, ancak bu sınıf içinde belirli maçlar veya takımlarla ilgili konular olabilir.

Konularla ilgili zorluk, zaman içinde değişmeleri; yukarıdaki eşleşme örneğini göz önünde bulundurun. Bu tür konular ortaya çıkabilir ve tekrar kaybolabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.