Kullback-Leibler mesafesinin bir uyarlaması?


28

Bu resme bak: görüntü tanımını buraya girin

Kırmızı yoğunluktan bir örnek alırsak, o zaman bazı değerlerin 0.25'ten düşük olması beklenirken, mavi dağılımdan böyle bir örnek üretmek mümkün değildir. Sonuç olarak, Kullback-Leibler kırmızı yoğunluktan mavi yoğunluğa olan mesafe sonsuzdur. Ancak, iki eğri, bazı "doğal anlamda", o kadar belirgin değildir.

İşte benim sorum: Bu iki eğri arasında sınırlı bir mesafeye izin verecek olan Kullback-Leibler mesafesinin bir uyarlaması var mı?


1
Hangi "doğal anlamda" bu eğriler "o kadar da farklı değil"? Bu sezgisel yakınlığın herhangi bir istatistiksel özellik ile nasıl bir ilişkisi var? (Birkaç cevap düşünebilirim ama aklında ne olduğunu merak ediyorum.)
whuber

1
Şey ... her ikisi de pozitif değerler üzerinde tanımlanmış olarak birbirlerine oldukça yakınlar; ikisi de artar, sonra azalır; Her ikisi de aslında aynı beklenti var; ve Kullback Leibler mesafesi, x ekseninin bir bölümünü kısıtlarsak "küçük" olur ... Fakat bu sezgisel kavramları herhangi bir istatistiksel özelliğe bağlamak için, bu özellikler için kesin bir tanımlamaya ihtiyacım olacak ...
ocram

Yanıtlar:


18

Devroye, Gyorfi ve Lugosi'nin 3. Bölümüne bakabilirsiniz, Örüntü Tanıma Kuramı Teorisi , Springer, 1996. Özellikle farklılıkları konulu bölüme bakınız.f

ff Farklılıklar Kullback - Leibler'in bir genellemesi olarak görülebilir (veya alternatif olarak, KL bir Farklılık özel durumu olarak görülebilir).f

Genel biçim

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

burada , ve ile ilişkili ölçümlere hakim olan bir ölçüdür ve , değerini sağlayan dışbükey bir işlevdir . (Eğer ve Lebesgue ölçüsü bakımından yoğunlukları vardır, sadece gösterim yerine için ve sen iyi gitmek.)p q f ( ) f ( 1 ) = 0 p ( X ) q ( X ) d x λ ( d x )λpqf()f(1)=0p(x)q(x)dxλ(dx)

KL'yi alarak . Hellinger farkını ve alarak toplam varyasyon veya mesafesini elde ederiz.. İkincisi verirf ( x ) = ( 1 - f(x)=xgünlükxL1f(x)= 1f(x)=(1-x)2L1f(x)=12|x-1|

DTV(p,q)=12|p(x)-q(x)|dx

Bu sonuncunun en azından sonlu bir cevap verdiğini unutmayın.

Yoğunluk TahminiL1 başlıklı bir başka küçük kitapta : Görünümü Devroye, çok güzel değişmezlik özellikleri nedeniyle (diğerleri arasında) bu son mesafenin kullanılmasını şiddetle savunuyor. Bu son kitap, öncekinden daha iyi ele almak için muhtemelen biraz daha zor ve başlıktan da anlaşılacağı gibi, biraz daha uzmanlaşmış.


Zeyilname : Bu soru sayesinde , @Didier'in önerdiği önlemin (sabite kadar) Jensen-Shannon Divergence olarak bilinen olduğunu farkettim. Eğer bu soruya verilen cevaba bağlantıyı takip ederseniz, bu miktarın karekök aslında bir ölçümdür çıkıyor ve daha önce bir özel durum için literatürde tanındı görürsünüz -divergence . Bu sorunun tartışılmasıyla tekerleği kollektifi "yeniden icat ettim" (oldukça hızlı bir şekilde) yaptığımızı ilginç buldum. Aşağıdaki yorumda ona verdiğim yorum @ Didier'in yanıtı daha önce de kabul edildi. Aslında, her yerde, biraz temiz.f


1
Çok hoş! "Olasılıklı Bir Örüntü Tanıma Kuramı" bulmaya çalışacağım ve 3. bölümünü anlamaya çalışacağım!
ocram

1
iyi cevap, en sık L 1 mesafesinin yarısını yapan başka bir yol olduğunu tanımladığına dikkat edin . DTVL1
Robin Girard

1
@ robin, yorumunuz için teşekkürler. Evet, bunun farkındayım. Sadece fuarda dağınık bir yabancı sabitten kaçınmaya çalışıyordum. Ama kesinlikle konuşursak haklısın. Buna göre güncelledim.
kardinal

3
Zeyilname, istatistiklerle karşılaştığım en yararlı bilgi parçası. Bunun için en içten teşekkürlerim. Verdiğiniz referansı burada kolayca yeniden oluşturuyorum: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… Endres ve Schindelin, Olasılık dağılımları için yeni bir ölçüm, IEEE Trans. Bilgi Senin. , vol. 49, hayır. 3, Temmuz 2003, s. 1858-1860.

1
@Didier, her şeyden daha mutlu bir kazaydı. Kimse diğer soruya cevap vermiyordu, bu yüzden Jensen-Shannon Divergence'in ilk sırada ne olduğunu anlamaya karar verdim. Tanımı bulduğumda, iki soruyu da ekim aracılığıyla bağlamak mantıklı görünüyordu. Yararlı bulduğuna sevindim. Saygılarımızla.
kardinal

19

Kullback-Leibler diverjans arasında P ile ilgili olarak Q zaman sonsuz P ile ilgili olarak mutlak sürekli değildir Q ölçülebilir grubu vardır olup, A , öyle ki S ( A ) = 0 ve P ( A ) 0 . Ayrıca, KL sapması simetrik değildir, genel olarak κ ( P Q ) κ ( Q κ(P|S)PSPSbirS(bir)=0P(bir)0 . Şunu hatırlayın κ ( P Q ) = P günlüğü ( Pκ(P|S)κ(S|P) Her iki dezavantajdan kurtulmanın bir yolu, hala KL ayrıntısına dayanıyor,R=1orta noktasını tanıtmak.

κ(P|S)=Pgünlük(PS).
Dolayısıyla,Rbir olasılık ölçüsüdür vePveQ,Rile ilgili olarak daima süreklidir. Bu nedenle bir arasında bir "mesafe" düşünülebilirPveQ, yine KL sapma fakat göreRolarak tanımlanan, r |(P,Q,)=κ(P|R)+κ(S|R). Sonraη(P
R,=12(P+S).
R,PSR,PSR,
η(P,S)=κ(P|R,)+κ(S|R,).
her için negatif olmayan ve sonlu olan P ve Q , η anlamda simetrik olduğu η ( P , Q, ) = η ( S , P ) her için P ve Q ve r | ( P , Q, ) = 0 IFF p = S .η(P,S)PSηη(P,S)=η(S,P)PSη(P,S)=0P=S

Eşdeğer bir formülasyon

η(P,S)=2günlük(2)+(Pgünlük(P)+Sgünlük(S)-(P+S)günlük(P+S)).

PS

η(P,S)=min[κ(P|)+κ(S|)],

Ek 2 @ cardinal, eta'nın aynı zamanda bir farklılığı olduğunu, dışbükey işlev için f f ( x ) = x log ( X ) - ( 1 + x ) günlük ( 1 + x ) + ( 1 + x ) günlük ( 2ηf

f(x)=xgünlük(x)-(1+x)günlük(1+x)+(1+x)günlük(2).

2
@Marco, @Didier Piau, Didier'ın öneri @ bir başka özel bir durum olduğu not edilebilir -divergence burada . f ( x ) = x günlüğü x - ( 1 + x ) günlüğü ( 1 + xff(x)=xgünlükx-(1+x)günlük(1+x2)
kardinal

1
@Marco, @Didier Piau, bazı uyarıcı özelliklere sahip alternatif bir formülasyon ve bu Başka bir deyişle, "ortalama ölçünün entropisi ile" arasındaki fark "dır. Tedbirlerin ortalama entropisi ".η ( P , Q, ) = 2 ( H ( μ ( P , Q ) ) - μ (η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))μ ( x , y ) = x + yη(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q)) 1μ(x,y)=x+y212η(P,Q)
Kardinal

3
Bu sadece Jensen-Shannon sapması değil mi?
Memming


"asgari olasılık ölçütleri kümesinin üstünde." Jensen-Shannon ayrışmasının bu karakterizasyonunu seviyorum. Bir yerlerde bunun bir kanıtı var mı?
user76284

10

Kolmogorov mesafesi iki dağılımları arasında ve da TDF sup norm. (Bu, CDF'lerin iki grafiği arasındaki en büyük dikey tutarsızlıktır.) varsayımsal bir dağılım olduğu ve bir veri kümesinin ampirik dağılım işlevi olduğu dağıtım testlerinde kullanılır .Q P QPSPS

Bunu KL mesafesinin bir "adaptasyonu" olarak nitelendirmek zordur, ancak "doğal" ve sonlu olmanın diğer gereksinimlerini karşılar.

Bu arada, KL sapması gerçek bir "mesafe" olmadığı için, bir mesafenin tüm aksiyomatik özelliklerini korumak için endişelenmemize gerek yok. Bir monotonik dönüşümü uygulanarak değerleri sonlu yaparken Biz olmayan olumsuzluk özelliğini korumak için sonlu değer için . Örneğin ters teğet iyi sonuç verecektir.CR,+[0,C]C


1
Kolmogorov mesafesi ile ilgili öneriniz için teşekkür ederiz. Monotonik dönüşüm hakkında yorumunuzu biraz daha açık hale getirir misiniz? Thx
ocram

1
arctan(KL(P,S))f(KL(P,S))f:R,+[0,C]xyf(x)f(y)x,y0

1
Evet, kastettiğim buydu :-) Dönüşümün ne uygulanacağından emin değildim. Şimdi, açık, thx
ocram

1
arctanπ/2arctanπ/2+

@Didier Evet, dönüştürülen KL farklılığı (tanımladığınız gibi simetrikleştirildiğinde) üçgen eşitsizliğini karşılamayabilir ve bu nedenle bir mesafe olmaz, ancak yine de bir topoloji tanımlar (büyük olasılıkla metrizlenebilir olur). Böylece çok az veya hiç pes edemezsiniz. Bunlardan herhangi birini yapmanın yararları hakkında çok utangaç kalıyorum: Bana öyle geliyor ki, bu sadece KL ayrışmasının sonsuz değerleri ile ilişkili zorlukların üstesinden gelmenin zorlukları üzerine bir kağıdın bir yoludur.
whuber

2

PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

İçsel tutarsızlığı (ya da bayesian referans kriterini) aramak size bu önlem hakkında bazı makaleler verecektir.

Senin durumunda, sonlu olan KL sapmalarını alırsın.

KL'ye bir diğer alternatif önlem Hellinger mesafesidir.

Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

P00limz0zlog(z)=0PQQ


1
PQPQ

1
Evet ... İçsel tutarsızlığın şartı yerine getirmediğinden korkuyorum. Ama öneri için teşekkür ederim. Diğer önerileriniz memnuniyetle karşılanacaktır.
ocram

1
Eğer mavi yoğunluğun desteğini kesinlikle olumlu bir desteğe sahip olacak şekilde kısıtlarsanız, tıpkı kırmızı olan için olduğu gibi (> 0) kısıtlı olmanız şartını yerine getirir
olasılık

3
PSP«SbirQ(A)=0P(bir)=0δ(P,S)P«SS«P

2
P+SP«P+SS«P+Sη(P,S): =κ(P|P+S)+κ(S|P+S)η(P,S)=0P=Sηη(P,S)PS
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.