LDA hiperparametreleri için doğal yorumlama

21

Birisi LDA hiperparametrelerinin doğal yorumunun ne olduğunu açıklayabilir mi? ALPHAve BETAsırasıyla (belge başına) konu ve (konu başına) kelime dağılımları için Dirichlet dağılımlarının parametreleridir. Bununla birlikte, birisi bu hiperparametrelerin daha küçük değerlere göre daha büyük değerlerini seçmenin ne anlama geldiğini açıklayabilir mi? Bu, belgelerdeki konuların azlığı ve kelimelerin konuların karşılıklı olarak münhasırlığı konusunda daha önce inanmak anlamına mı geliyor?

Bu soru gizli Dirichlet tahsisi ile ilgilidir, ancak BGReene'nin hemen altındaki yorum, kafa karıştırıcı olarak LDA olarak kısaltılmış lineer diskriminant analizini ifade eder.

— abhinavkulkarni
kaynak

Hangi LDA formülasyonunu kullandığınız hakkında biraz daha ayrıntı vermeniz gerektiğini düşünüyorum. Genellikle bu parametrelere sahip RDA modelleri, LDA genellikle tamamen ortalama vektör, kovaryans matrisi ve önceki olasılıklarla tanımlanır.

— BGreene

11

David Blei, bir yaz sınıfının öğrencilerine LDA'yı tanıtan harika bir konuşma yaptı: http://videolectures.net/mlss09uk_blei_tm/

İlk videoda , konu modelleme ve Dirichlet dağılımının nasıl yürüdüğü konusundaki temel fikri kapsamlı bir şekilde ele alıyor. Plaka gösterimi, tüm gizli değişkenlerin bağımlılıkları gösterdiği gözlemlenir gibi açıklanmaktadır. Temelde konular kelimeler üzerinde dağılımlar ve konular üzerinde belge dağılımlarıdır.

İkinci videoda alfa etkisini bazı örnek grafiklerle gösterir. Alfa ne kadar küçük olursa dağılım o kadar seyrek olur. Ayrıca, bazı çıkarım yaklaşımları getirmektedir.

— Karsten
kaynak

7

bu kabul edilen cevap olmamalı

— samsamara

Haklısın sanırım Bunu yazdığımı tamamen unuttum.

— Karsten

ah! yazarın bir yorum görmeyi beklemiyorduk! hehe :)

— samsamara

48

Cevap, simetrik veya asimetrik dirichlet dağılımını (veya daha teknik olarak, temel önlemin tek tip olup olmadığını) varsayalım . Başka bir şey belirtilmedikçe, LDA uygulamalarının çoğu dağıtımın simetrik olduğunu varsayar.

Simetrik dağılım için, yüksek bir alfa değeri, her belgenin belirli bir konuyu değil, çoğu konunun bir karışımını içereceği anlamına gelir . Düşük bir alfa değeri, belgelere daha az kısıtlama getirir ve bir belgenin konuların yalnızca birkaçını, hatta yalnızca bir karışımını içerme olasılığının daha yüksek olduğu anlamına gelir. Benzer şekilde, yüksek bir beta değeri, her bir konunun, özellikle herhangi bir kelimeyi değil, çoğu kelimenin bir karışımını içereceği anlamına gelirken, düşük bir değer, bir konunun sadece birkaç kelimeden oluşan bir karışım içerebileceği anlamına gelir.

Öte yandan, dağılım asimetrik ise, yüksek bir alfa değeri, her bir belge için belirli bir konu dağılımının (temel ölçüye bağlı olarak) daha olası olduğu anlamına gelir. Benzer şekilde, yüksek beta değerleri, her bir konunun temel ölçü tarafından tanımlanan belirli bir kelime karışımını içermesinin daha olası olduğu anlamına gelir.

Uygulamada, yüksek bir alfa değeri, belgelerin hangi konuları içerdiklerine daha benzer olmasına yol açacaktır. Yüksek bir beta değeri benzer şekilde konuların içerdikleri kelimeler açısından daha benzer olmasına yol açacaktır.

Yani, evet, alfa parametreleri, belgelerdeki konu seyrekliği / tekdüzelik hakkında önceki inançları belirtir. "Konuların kelimelere göre karşılıklı münhasırlığı" ile ne demek istediğinizden tam olarak emin değilim.

Daha genel olarak, bunlar LDA modelinde kullanılan dirichlet dağılımı için konsantrasyon parametreleridir . Bunun nasıl çalıştığına dair sezgisel bir anlayış kazanmak için, bu sunumda bazı güzel çizimler ve genel olarak LDA'nın iyi bir açıklaması bulunmaktadır.

$(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ . Hangi parametrelendirmenin en yaygın olduğundan emin değilim, ancak cevabımda konsantrasyon parametreleri olarak alfa ve beta değerlerini kastettiğini varsayıyorum.

— ÇYN
kaynak

2

+1 bilgilendirici cevap! Genel olarak alfa ve beta için ne kadar yüksek / düşük bir değer olduğunu sormak istiyorum.

— samsamara

Beta'nın her bir konu (matris) için kelimeler arasında bir dağılım olması gerekiyordu, değil mi? Peki, tek bir değer bir matrise nasıl dönüşür?

— Noamiko

Yüksek alfa'nın belgelerin benzer olduğu ve yüksek beta'nın konuların benzer olduğu anlamına geldiği konusunda haklı mıyım?

— Lewistrick