Kullback-Leibler (KL) diverjansının maksimum değeri nedir


15

Python kodumda KL sapmasını kullanacağım ve bu öğreticiyi aldım .

Bu derste KL ıraksama uygulamak oldukça basittir.

kl = (model * np.log(model/actual)).sum()

Anlıyorum gibi, olasılık dağılımı modelve actual<= 1 olmalıdır.

Benim sorum, k'nin maksimum bağlı / maksimum değeri nedir? Kodumda maksimum sınır için olduğu gibi kl mesafesinin maksimum değerini bilmeliyim.


Yanıtlar:


19

Ya da bir destek diğerinden çok daha şişman bir kuyruğa sahip olduğunda, aynı destekle bile. Al olduğunda p ( x ) = Cauchy yoğunluğu 1

KL(P||Q)=p(x)log(p(x)q(x))dx
sonra KL(p||S)=1
p(x)=1π11+x2Cauchy densityq(x)=12πexp{x2/2}Normal density
ve 1
KL(P||Q)=1π11+x2logp(x)dx+1π11+x2[log(2π)/2+x2/2]dx
Sınırlı kalan başka mesafeler var, örneğin
1π11+x2x2/2dx=+
  • toplam varyasyon mesafeye denk bir mesafe,L¹
  • Wasserstein mesafeleri
  • Hellinger mesafesi

1
Xi'an'da çok iyi bir açıklama
Carlos Campos

Teşekkürler @ Xi'an demek, her iki dağıtım için tüm bidonların toplamı = 1 olsa bile, kl diverjansının maksimum sınırı yoktur? maksimum bağlı / statik bağlı tanımlanmış iki olasılık dağılımı için başka seçenek mesafesi fonksiyonu var mı?
user46543

Bu durumda P, Q'ya göre kesinlikle sürekli midir?
Sangwoong Yoon

Bu durumda"? KL, kesinlikle inandığım süre boyunca sürekli olmayan dağıtımlar için tanımlanmamıştır.
Xi'an

13

Aynı desteğe sahip olmayan dağıtımlar için KL sapması sınırlandırılmaz. Tanıma bakın:

KL(P||Q)=p(x)ln(p(x)q(x))dx

P ve Q aynı destek varsa, bazı nokta var ve kl sonsuza gitmek yapma. Bu, sizin durumunuz olan ayrık dağıtımlar için de geçerlidir.xp(x)0q(x)=0

Düzenleme: Belki de olasılık dağılımları arasındaki farklılığı ölçmek için daha iyi bir seçim, bir metrik olan ve KL diverjansından daha iyi özelliklere sahip olan Wasserstein mesafesi olarak adlandırılır. Derin öğrenmedeki uygulamaları nedeniyle oldukça popüler hale geldi (bkz. WGAN ağları)


Teşekkürler @ carlos-campos dağıtımım hem gerçek hem de model tüm bidonların toplamı olan aynı koşula sahip = 1. Wassertein mesafesine bakacağım
user46543

Wasserstein veya Earth mover mesafesinin açık bir maksimum sınırı var mı? Çünkü ihtiyacım var.
user46543

@ user46543 Wasserstein mesafesi kadar yüksek olabilir
Mark L. Stone

Merhaba @ MarkL.Stone böylece statik maksimum bağlı olan iki olasılık dağılımları arasındaki mesafeyi hesaplamak için mesafe fonksiyonu yoktur? Örneğin, iki olasılık dağılımının toplamı 1 iken mesafenin maksimum sınırı 1 olur. Doğru muyum?
user46543

4

Carlos ve Xi'an'ın mükemmel cevaplarına ek olarak, KL diverjansının sonlu olması için yeterli bir koşulun, hem rastgele değişkenlerin aynı kompakt desteğe sahip olması hem de referans yoğunluğunun sınırlandırılması olduğunu belirtmek ilginçtir. . Bu sonuç aynı zamanda maksimum KL ıraksama için örtülü bir sınır oluşturur (aşağıdaki teorem ve kanıtlara bakınız).


Teorem: ve yoğunlukları aynı kompakt desteğe ve yoğunluğu bu destek üzerine (yani, sınırlı bir üst sınırı varsa) .pqXpKL(P||Q)<

Korumalı: yana kompakt bir destek bulunur olumlu infimum değeri vardır, bu araçlar:qX

q_infxXq(x)>0.

Benzer şekilde, kompakt desteği bu, bazı pozitif supremum değerinin olduğu anlamına gelir:pX

p¯supxXp(x)>0.

Dahası, bunların her ikisi de aynı destek üzerinde yoğunluk olduğundan ve ikincisi sınırlı olduğundan, . Bunun anlamı şudur ki:0<q_p¯<

supxXln(p(x)q(x))ln(p¯)ln(q_).

Şimdi, izin ikinci üst sınırı, açıkça bu bölgelerde bulunması böylece o:L_ln(p¯)ln(q_)0L_<

KL(P||Q)=Xln(p(x)q(x))p(x)dxsupxXln(p(x)q(x))Xp(x)dx(ln(p¯)ln(q_))Xp(x)dx=L_<.

Bu, teoremi kanıtlayan gerekli üst sınırı belirler.


Sonuç doğrudur, ancak ağır kısıtlama: olduğunda bir Beta yoğunluğu kompakt bir desteğe sahip değildir . B(α,β)max(α,β)>1
Xi'an

Bu doğru: sonuçta sadece yeterli bir durum. Daha zayıf koşullar kabul edilir!
Ben - Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.