Alfa ve beta hiperparametreler Latent Dirichlet tahsisinde neye katkıda bulunur?

19

LDA'nın iki hiperparametresi vardır, onları ayarlamak, indüklenen konuları değiştirir.

Alfa ve beta hiperparametreler LDA'ya ne katkıda bulunur?

Bir veya diğer hiperparametreler artar veya azalırsa konu nasıl değişir?

Neden sadece parametreler değil, hiperparametrelerdir?

topic-model lda parameter

— alvas
kaynak

İşte iyi bir kısmi cevap: stats.stackexchange.com/a/37444/156252

— Yeşilimsi

16

Dirichlet dağılımı çok değişkenli bir dağılımdır. Biz biçiminin boyutu K bir vektör olarak Dirichlet parametrelerini de isim verebilir ~ , burada parametrelerin boyutu vektörü ve . $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ $a$ $K$ $\sum x_i = 1$

Şimdi LDA gibi bazı yapılar kullanıyor:

bir belgenin birden fazla konusu olabilir (bu çokluk nedeniyle Dirichlet dağılımına ihtiyacımız vardır); ve bu ilişkiyi modelleyen bir Dirichlet dağılımı var
kelimeler bir belgenin dışında olduğunu düşündüğünüzde birden çok konuya da ait olabilir; işte bunu modellemek için başka bir Dirichlet'e ihtiyacımız var

Önceki ikisi, verilerden gerçekten görmediğiniz dağıtımlardır, bu yüzden gizli veya gizli olarak adlandırılır.

Şimdi, Bayesci çıkarımda, arka olasılığı tahmin etmek için Bayes kuralını kullanırsınız. Kolaylık olması açısından, verileriniz olduğunu ve bu veriler için bazı parametreler tarafından yönetilen bir modeliniz olduğunu . Bu parametreler için değerleri çıkarmak için, Bayes çıkarımında tam olarak bu parametrelerin posterior olasılığını Burada not edin bir geliyor $x$ $\theta$

p (θ | x) = \frac{p (x | θ) p (θ | α)}{p (x | α)} ⟺ arka olasılık = \frac{olasılık x önceki olasılık}{marjinal olasılık}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$ . Bu, bu dağıtım hakkındaki ilk inancınızdır ve önceki dağıtımın parametresidir. Genellikle bu, daha önce bir konjugate sahip olacak şekilde seçilir (böylece posteriorun dağılımı öncekinin dağılımı ile aynıdır) ve genellikle bir bilginiz varsa bazı bilgileri kodlamak veya hiçbir şey bilmiyorsanız maksimum entropiye sahip olmak .

Öncekinin parametrelerine hiperparametreler denir . Bu nedenle, LDA'da, hem konu dağılımları, hem belgeler üzerinde hem de kelimeler üzerinde genellikle alfa ve beta ile belirtilen karşılık gelen öncelikler vardır ve çünkü önceki dağılımların parametrelerine hiperparametreler denir.

Şimdi öncelikleri seçme hakkında. Bazı Dirichlet dağılımları , parametreleri tek tek aynı değere , pdf değerleri tarafından tanımlanan , pdf için minimum veya maksimum merkezdedir. $\alpha_k$ $x$

Tüm değerleri birimden daha düşükse, maksimum köşelerde bulunur $\alpha_k$

veya tüm değerler aynı ve 1'den büyükse, maksimum değer merkezde $\alpha_k$

değerleri eşit değilse simetrinin bozulduğunu ve maksimum değerin daha büyük değerlerin yakınında bulunacağını görmek kolaydır . $\alpha_k$

Ek olarak, parametrelerin değerleri 1'e yakın olduğu için önceki parametreler için değerlerin dağıtımın düzgün pdfs'lerini oluşturduğunu lütfen unutmayın. Dolayısıyla, bir şeyin bildiğiniz bir şekilde açıkça dağıtıldığına dair büyük bir güveniniz varsa, Mutlak değerde 1'den uzak değerler kullanılmalıdır, eğer böyle bir bilgiye sahip değilseniz, 1'e yakın değerler bu bilgi eksikliğini kodlar. Dirichlet dağılımında, dağılımın kendisinin formülünden neden böyle bir rol oynadığını görmek kolaydır.

Bunu anlamanın bir başka yolu da, önceki bilginin kodlanmış olduğunu görmek. Aynı zamanda, daha önce görülen bazı verileri kodladığını düşünebilirsiniz. Bu veriler algoritmanın kendisi tarafından görülmedi, sizin tarafınızdan gördü, bir şeyler öğrendiniz ve önceden bildiklerinize (öğrendiklerinize) göre modelleme yapabilirsiniz. Yani önceki parametrelerde (hiperparametreler) bu veri setinin ne kadar büyük gördüğünü de , çünkü toplamı da bu az ya da çok hayali veri setinin boyutu olabilir. Dolayısıyla, önceki veri seti ne kadar büyük olursa, güven de o kadar büyük olur, seçebileceğiniz değerleri ne kadar büyük olursa , maksimum değere yakın olan yüzey o kadar net olur, bu da daha az şüphe anlamına gelir. $\alpha_k$ $\alpha_k$

Umarım yardımcı olmuştur.

— rapaio
kaynak

Biz ev / tex desteği hakkında aynı umuyoruz! : D

— Rubens

11

Simetrik Dirichlet dağılımları (basitlik için) varsayarsak, düşük bir alfa değeri, her belgenin yalnızca birkaç baskın konudan oluşmasına daha fazla ağırlık verir (oysa yüksek bir değer çok daha baskın konular döndürür). Benzer şekilde, düşük bir beta değeri, her konunun sadece birkaç baskın kelimeden oluşmasına daha fazla ağırlık verir.

— Alireza
kaynak