Konu modelleri ve kelime birlikte ortaya çıkma yöntemleri


26

LDA gibi popüler konu modelleri genellikle aynı konu (birlikte) içinde birlikte ortaya çıkma eğiliminde olan kelimeleri kümeler.

Bu konu modelleri ve PMI gibi diğer basit eşzamanlılık tabanlı kümeleme yaklaşımları arasındaki temel fark nedir? (PMI, Pointwise Mutual Information anlamına gelir ve verilen bir kelimeyle birlikte gelen kelimeleri tanımlamak için kullanılır.)

Yanıtlar:


32

Son zamanlarda, yazılı metinden nasıl bilgi çıkarılacağını tartışan devasa bir literatür toplandı. Bu nedenle, sadece dört kilometre taşını / popüler modelleri ve bunların avantajlarını / dezavantajlarını tanımlayacağım ve böylece temel farklılıkları (veya en azından ana / en önemli farkları düşündüğümü) vurgulayacağım.

Belgeleri önceden tanımlanmış bir terim sorgusu ile eşleştirerek (PMI'da olduğu gibi) eşleştirerek, kümelemek olacak olan "en kolay" yaklaşımından bahsediyorsunuz. Bununla birlikte, bu sözcüksel eşleştirme yöntemleri, tek terimin çok yönlülüğü (çoklu anlamlar) ve eş anlamlılıkları (benzer anlamlara sahip çoklu kelimeler) nedeniyle yanlış olabilir.

Bir çözüm olarak, gizli anlamsal indeksleme ( LSI ), terimleri ve belgeleri tekil bir değer ayrıştırması yoluyla gizli bir anlamsal alana eşleştirerek bunun üstesinden gelmeye çalışır. LSI sonuçları, bireysel terimlerden daha anlamlı bir anlam göstergesidir. Bununla birlikte, LSI'nin bir dezavantajı, sağlam olasılık temeli açısından bulunmamasıdır.

Bu kısmen olasılıksal LSI ( pLSI ) icadı ile çözüldü . PLSI modellerinde, bir belgedeki her kelime, multinomiyal rasgele değişkenler (ayrıca belirtilen sviatoslav hong'da belirtildiği gibi daha yüksek dereceli ortak oluşumlara izin verir) ile belirtilen bir karışım modelinden çizilir. Bu, olasılıksal metin modellemesinde ileriye yönelik önemli bir adımdı, ancak belgeler düzeyinde olasılıksal bir yapı sunmadığı için eksik kaldı.

Latent Dirichlet Allocation ( LDA ) bunu hafifletir ve metin kümelemesi için ilk tam olasılıklı modeldir. Blei ve diğ. (2003), pLSI'nın daha önce tek tip bir Dirichlet altında maksimum bir posteriori tahmini LDA modeli olduğunu göstermektedir.

Yukarıda belirtilen modellerin (LSI, pLSI, LDA) ortak olarak “sözcük torbası” varsayımına dayandıklarına - yani bir belgenin içindeki kelimelerin değiştirilebileceğine, yani bir belgenin içindeki kelimelerin sırasına sahip olduğuna dikkat edin. ihmal edilmek Bu değişebilirlik varsayımı, LDA için diğer yaklaşımlara göre daha ileri bir gerekçe sunar: Yalnızca belgeler içindeki kelimelerin değiştirilemez olduğunu, ayrıca belgelerin, yani bir korpus içindeki belgelerin sırasının da ihmal edilebileceğini varsayarsak, De Finetti teoremiherhangi bir değiştirilebilir rasgele değişken setinin karışım dağılımı olarak gösterildiğini belirtir. Bu nedenle, belgelerdeki belgeler ve kelimeler içindeki değişebilirlik varsayılırsa, her ikisi için de bir karışım modeli gereklidir. Aynen bu, LDA'nın genel olarak başardığı şeydir, ancak PMI veya LSI, (ve hatta pLSI, LDA kadar güzel değildir).


2
1/2 Teşekkürler! Çok açık. Bunu doğru yapıp yapmadığımı kontrol etmeme izin verin: LSI'da belgeler, sözcüklerin bir karışımı (konular kavramı olmadan) ile oluşturulur ve kelimeler ve belgeler, SVD kullanılarak daha düşük boyutlu bir anlamsal alana eşlenir. Benzer anlamsal anlamdaki kelimeler daha yakın haritalandığından eş anlamlılıkla başa çıkabiliyor ancak polislikle ilgili problemleri var. pLSI, polislik sorununu, konu kavramını tanıtarak çözer. PLSI'da, kelimeler çok terimli bir sözcük dağılımından (konular) çıkarılır, aynı kelime birkaç başlığa ait olabilir ve bir belge birden fazla başlığa sahiptir, ancak bu açıkça modellenemez.
kanzen_master

2
Genelde doğru anladığınızı düşünüyorum. Bazı küçük düzeltmeler: LSI'nin hem polislik hem de eşanlamlılıkla iyi çalıştığı düşünülmektedir. pLSI, LSI'nin gizli sınıf analiz / karışım modellerinin araçları ve sadece lineer cebir yerine olasılıkla neye dayandığını görmek için temelde bir formülasyondur. PLSI ile karşılaştırıldığında LDA, belge başına bir konu dağılımı belirterek tamamen üretken bir modeldir.
Momo

1
Aşırı uyarma ve tahmin konusundaki puanlarınızla ilgili olarak, nitelikli bir ifade için yeterince bilgili değilim. Ancak, tüm değerleri için, LDA'nın neden pLSI'dan daha az eğilimli olduğunu anlamıyorum (LDA temel olarak sadece bir pLSI modelinden önce bir ek eklediği için). Her ikisinin de fazla takma veya benzeri şeyler için yerleşik bir düzeltmesi yoktur. Yeni belgelerin "öngörülmesi", LDA gibi tamamen üretken bir modelle gerçekten daha kolay veya uygulanabilir olabilir, bkz. Stats.stackexchange.com/questions/9315/… Ancak LDA'yı denetimsiz, açıklayıcı bir model olarak görüyorum.
Momo

1
Tekrar teşekkürler! Sadece 2 son soru: (1) Çok yönlülük ile ilgili olarak, bu pdf'de sayfa 3'ün sonu Hoffman, PLSI'nin LSI ile olan farklılıklarından birinin polislik olduğunu, çünkü aynı kelimenin farklı sözcük dağılımlarına (konular) ait olabileceğini; Bu yüzden LSI'nin polisçilikle çalışmadığını düşündüm. (2) Aşırı yükleme ile ilgili olarak, bu blog , parametrelerin doğrusal bir şekilde artmasının, modelin aşırı giyinmeye eğilimli olduğunu öne sürdüğünü belirtir. Ne düşünüyorsun ?
kanzen_master

2
Sorun değil. Bu şeyler hakkında zaten çok şey biliyorsun, ben de bir şeyler öğreniyorum. ad (1) Her zamanki gibi, şu duruma bağlı olarak: LSI, PCA’da yapılan terimlerin doğrusal birleşiminden dolayı polisliği ele alabilir. Bunu eş anlamlılarla daha iyi yapar, fakat aynı zamanda polislikle de bir dereceye kadar. Temelde benzer olan çok kelimeli kelimeler, benzer bir anlamı paylaşan kelimelerin bileşenleridir. Bununla birlikte, bir kelimenin her bir uzayda tek bir nokta olarak gösterilmesi, pLSI'dan çok daha azını yapar. Bu nedenle temsil kelimesi, korpustaki kelimenin bütün anlamlarının bir ortalamasıdır.
Momo

5

LDA, terimlerin eş-sıralı sıralarını yakalayabilir (her konunun varsayımından dolayı terimler arasında çok terimli bir dağılım olduğu varsayımı nedeniyle), ancak terimler arasında yalnızca PMI hesaplanması mümkün değildir.


4
Teşekkürler! "Yüksek dereceli eş oluşum" tanımı nedir?
kanzen_master

5

3 yıl gecikmiş olabilirim, ancak "yüksek dereceli birlikte yaşama" örneği hakkındaki sorunuzu takip etmek istiyorum.

Temel olarak, t1 terimi, t3 terimi ile birlikte gerçekleşen t2 terimi ile birlikte gerçekleşirse, o zaman t1 terimi, t3 terimi ile 2. mertebeden birlikte oluşmasıdır. İsterseniz daha üst düzeye gidebilirsiniz, ancak sonunda iki kelimenin ne kadar olması gerektiğini kontrol edebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.