Son zamanlarda, yazılı metinden nasıl bilgi çıkarılacağını tartışan devasa bir literatür toplandı. Bu nedenle, sadece dört kilometre taşını / popüler modelleri ve bunların avantajlarını / dezavantajlarını tanımlayacağım ve böylece temel farklılıkları (veya en azından ana / en önemli farkları düşündüğümü) vurgulayacağım.
Belgeleri önceden tanımlanmış bir terim sorgusu ile eşleştirerek (PMI'da olduğu gibi) eşleştirerek, kümelemek olacak olan "en kolay" yaklaşımından bahsediyorsunuz. Bununla birlikte, bu sözcüksel eşleştirme yöntemleri, tek terimin çok yönlülüğü (çoklu anlamlar) ve eş anlamlılıkları (benzer anlamlara sahip çoklu kelimeler) nedeniyle yanlış olabilir.
Bir çözüm olarak, gizli anlamsal indeksleme ( LSI ), terimleri ve belgeleri tekil bir değer ayrıştırması yoluyla gizli bir anlamsal alana eşleştirerek bunun üstesinden gelmeye çalışır. LSI sonuçları, bireysel terimlerden daha anlamlı bir anlam göstergesidir. Bununla birlikte, LSI'nin bir dezavantajı, sağlam olasılık temeli açısından bulunmamasıdır.
Bu kısmen olasılıksal LSI ( pLSI ) icadı ile çözüldü . PLSI modellerinde, bir belgedeki her kelime, multinomiyal rasgele değişkenler (ayrıca belirtilen sviatoslav hong'da belirtildiği gibi daha yüksek dereceli ortak oluşumlara izin verir) ile belirtilen bir karışım modelinden çizilir. Bu, olasılıksal metin modellemesinde ileriye yönelik önemli bir adımdı, ancak belgeler düzeyinde olasılıksal bir yapı sunmadığı için eksik kaldı.
Latent Dirichlet Allocation ( LDA ) bunu hafifletir ve metin kümelemesi için ilk tam olasılıklı modeldir. Blei ve diğ. (2003), pLSI'nın daha önce tek tip bir Dirichlet altında maksimum bir posteriori tahmini LDA modeli olduğunu göstermektedir.
Yukarıda belirtilen modellerin (LSI, pLSI, LDA) ortak olarak “sözcük torbası” varsayımına dayandıklarına - yani bir belgenin içindeki kelimelerin değiştirilebileceğine, yani bir belgenin içindeki kelimelerin sırasına sahip olduğuna dikkat edin. ihmal edilmek Bu değişebilirlik varsayımı, LDA için diğer yaklaşımlara göre daha ileri bir gerekçe sunar: Yalnızca belgeler içindeki kelimelerin değiştirilemez olduğunu, ayrıca belgelerin, yani bir korpus içindeki belgelerin sırasının da ihmal edilebileceğini varsayarsak, De Finetti teoremiherhangi bir değiştirilebilir rasgele değişken setinin karışım dağılımı olarak gösterildiğini belirtir. Bu nedenle, belgelerdeki belgeler ve kelimeler içindeki değişebilirlik varsayılırsa, her ikisi için de bir karışım modeli gereklidir. Aynen bu, LDA'nın genel olarak başardığı şeydir, ancak PMI veya LSI, (ve hatta pLSI, LDA kadar güzel değildir).