Kullback-Leibler ıraksama / mesafe nasıl hesaplanır?


10

X, Y ve Z olmak üzere üç veri setim var. Her veri kümesi meydana gelen bir olayın frekansını tanımlar. Örneğin:

Veri Kümesi X: E1: 4, E2: 0, E3: 10, E4: 5, E5: 0, E6: 0 vb.
Veri Kümesi Y: E1: 2, E2: 3, E3: 7, E4: 6, E5: 0, E6: 0 vb.
Veri Kümesi Z: E1: 0, E2: 4, E3: 8, E4: 4, E5: 1, E6: 0 vb.

X ve Y arasında KL ayrımı bulmalıyım; Bazı olaylarda görebileceğiniz gibi 0 ve sıfır olmayan değerler olacaktır. Bazı olaylar için her üç veri seti de 0'dır.

Birisi bunun KL ıraksamalarını bulmama yardımcı olabilirse sevinirim. Pek bir istatistikçi değilim, bu yüzden fazla bir fikrim yok. Çevrimiçi baktığım dersler benim anlayışım için biraz fazla karmaşıktı.

Yanıtlar:


11

Sorunuzu cevaplamak için KL diverjansının tanımını hatırlamalıyız :

DKL(Y||X)=i=1Nln(YiXi)Yi

Her şeyden önce, olasılık dağılımlarından olasılık dağılımlarına geçmek zorundasınız. Bunun için verilerinizi bire kadar toplayacak şekilde normalleştirmelisiniz:

Xi:=Xii=1NXiYi:=Yii=1NYiZi:=Zii=1NZi

Daha sonra, kesikli değerler için KL ayrışmasını değerlendirmek için gereken ve genellikle ihlal edilen çok önemli bir varsayım var:

Xi=0Yi=0

XiYiln(Yi/Xi)Yi

DKL(X||Y)DKL(Y||X)

Pratik açıdan ne önerebilirim:

ya daha az sıfır olacak şekilde etkinliklerinizi "daha büyük" yapın

veya en az bir giriş içeren nadir olayları bile kapsayacak şekilde daha fazla veri kazanabilirsiniz.

Yukarıdaki önerilerin hiçbirini kullanamazsanız, muhtemelen dağıtımlar arasında başka bir metrik bulmanız gerekecektir. Örneğin,

I(X,Y)=i=1Nj=1Np(Xi,Yj)ln(p(Xi,Yj)p(Xi)p(Yj))p(Xi,Yi)

Umarım yardımcı olur.


0

resim açıklamasını buraya girin

\ Epsilon'u çok küçük bir 0.00001 (diyelim) değerine ayarlamak ve tüm Olasılıklar için sıfır olmayan değerlerle devam etmek ve KL puanlarını hesaplamak isteyebilirsiniz.

Bunun işe yarayıp yaramadığını lütfen bize bildirin.


2
LATEX
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.