Cevap, simetrik veya asimetrik dirichlet dağılımını (veya daha teknik olarak, temel önlemin tek tip olup olmadığını) varsayalım . Başka bir şey belirtilmedikçe, LDA uygulamalarının çoğu dağıtımın simetrik olduğunu varsayar.
Simetrik dağılım için, yüksek bir alfa değeri, her belgenin belirli bir konuyu değil, çoğu konunun bir karışımını içereceği anlamına gelir . Düşük bir alfa değeri, belgelere daha az kısıtlama getirir ve bir belgenin konuların yalnızca birkaçını, hatta yalnızca bir karışımını içerme olasılığının daha yüksek olduğu anlamına gelir. Benzer şekilde, yüksek bir beta değeri, her bir konunun, özellikle herhangi bir kelimeyi değil, çoğu kelimenin bir karışımını içereceği anlamına gelirken, düşük bir değer, bir konunun sadece birkaç kelimeden oluşan bir karışım içerebileceği anlamına gelir.
Öte yandan, dağılım asimetrik ise, yüksek bir alfa değeri, her bir belge için belirli bir konu dağılımının (temel ölçüye bağlı olarak) daha olası olduğu anlamına gelir. Benzer şekilde, yüksek beta değerleri, her bir konunun temel ölçü tarafından tanımlanan belirli bir kelime karışımını içermesinin daha olası olduğu anlamına gelir.
Uygulamada, yüksek bir alfa değeri, belgelerin hangi konuları içerdiklerine daha benzer olmasına yol açacaktır. Yüksek bir beta değeri benzer şekilde konuların içerdikleri kelimeler açısından daha benzer olmasına yol açacaktır.
Yani, evet, alfa parametreleri, belgelerdeki konu seyrekliği / tekdüzelik hakkında önceki inançları belirtir. "Konuların kelimelere göre karşılıklı münhasırlığı" ile ne demek istediğinizden tam olarak emin değilim.
Daha genel olarak, bunlar LDA modelinde kullanılan dirichlet dağılımı için konsantrasyon parametreleridir . Bunun nasıl çalıştığına dair sezgisel bir anlayış kazanmak için, bu sunumda bazı güzel çizimler ve genel olarak LDA'nın iyi bir açıklaması bulunmaktadır.
( α1, α2, . . . , αK)u = ( u1, sen2, . . . , senK)αα ∗ u = ( α1, α2, . . . , αK)α( α1, α2, . . . , αK)( α1, α2, . . . , αK). Hangi parametrelendirmenin en yaygın olduğundan emin değilim, ancak cevabımda konsantrasyon parametreleri olarak alfa ve beta değerlerini kastettiğini varsayıyorum.