KL divergence hakkındaki sorularınız için;


14

Bu ölçüt hakkında okuduğum şeye göre, bir hipotezi diğerine dönüştürmek için gereken bilgi miktarı olan standart olmayan bir sayı döndüren KL dağılımını iki dağılımı karşılaştırıyorum. İki sorum var:

a) KL sapmasını, örneğin etki büyüklüğü veya R ^ 2 gibi daha anlamlı bir yoruma sahip olacak şekilde ölçmenin bir yolu var mı? Herhangi bir standardizasyon şekli var mı?

b) R'de KLdiv (flexmix paketi) kullanıldığında, sayısal kararlılık sağlamak için esp'den daha küçük olan tüm noktaları bir standarda ayarlayan 'esp' değeri (standart esp = 1e-4) ayarlanabilir. Farklı esp değerleri ile oynuyorum ve veri setim için, daha büyük bir KL sapması daha küçük bir sayı alıyorum. Ne oluyor? Esp ne kadar küçük olursa, sonuçların o kadar güvenilir olmasını beklerim çünkü daha 'gerçek değerlerin' istatistiğin bir parçası olmasına izin verirler. Hayır? Ben aksi takdirde istatistik hesaplamak değil ama sadece sonuç tablosunda NA olarak görünür çünkü esp değiştirmek zorunda ...

Yanıtlar:


10

P veya q ile oluşturulan n IID örneği verildiğini varsayalım. Hangi dağıtımın bunları oluşturduğunu belirlemek istiyorsunuz. Q tarafından üretildiklerine dair boş hipotez olarak kabul edin. Hatalı olarak sıfır hipotezini reddederek Tip I hata olasılığını belirtin ve b Tip II hata olasılığını gösterir.

Daha sonra büyük n için, Tip I hata olasılığı en azından

exp(nKL(p,q))

Başka bir deyişle, "optimal" bir karar prosedürü için, Tip I olasılığı en fazla her veri noktası ile bir eksp faktörüne (KL (p, q)) düşer. Tip II hatası en fazla faktörüne bağlıdır .exp(KL(q,p))

Keyfi n için a ve b aşağıdaki gibi ilişkilidir

blogb1a+(1b)log1banKL(p,q)

ve

aloga1b+(1a)log1abnKL(q,p)

Yukarıdaki bağı b ve KL cinsinden alt sınır olarak ifade edersek ve b'yi 0'a düşürürsek, sonuç küçük n için bile "exp (-n KL (q, p))" ye yaklaşır gibi görünüyor

Daha 10. sayfada ayrıntıları burada ve sayfalar Kullback yönettiği "Bilgi Teorisi ve İstatistik" 74-77 (1978).

Bir yan not olarak, bu yorum Fisher Information metriğini motive etmek için kullanılabilir , çünkü herhangi bir çift dağılım için p, q Fisher'ın k mesafesinden (küçük k), bunları ayırmak için aynı sayıda gözlem gerekir


1
+1 Bu yorumu beğendim! "p e'nin altında" açıklayabilir misiniz? neden küçük e alıyorsun? "zıt hatayı yapma olasılığı" diyorsunuz, üst sınır mı yoksa kesin olasılık mı? Hatırlıyorsam, bu tür bir yaklaşım Chernoff'dan kaynaklanıyor, referanslarınız var mı (ilk referansınızın noktayı netleştirmediğini görüyorum :))?
robin girard

1
Neden küçük e ... hmm ... Balasubramanian'ın gazetesinin yaptığı buydu, ama şimdi, Kullback'e geri dönersek, herhangi bir e için bağlı tutuyor gibi görünüyor ve sonlu n için de sınır veriyor, cevabı güncelleyeyim
Yaroslav Bulatov

tamam, bağlı olması için küçük olması için küçük e'ye (şimdi b, Tip II hatası) ihtiyacımız yok, ancak b = 0 basitleştirilmiş (exp (-n KL (p, q)) bağlı değerdir Merakla yeterli, Tip I hatası için verilen alt sınır 0 Tip II hatası <1, <1 Tip II hata oranının gerçekten elde edilip edilemeyeceğini merak ediyorum
Yaroslav Bulatov

1
Aslında bunun anlaşılması çok daha kolay bir referans, Cover'ın "Bilgi Teorisinin Unsurları", sayfa 309, 12.8 "Stein'in Lemması"
Yaroslav Bulatov

8

Balıkçı metrik tensörü içinde bir dizi dişi manifold olarak görselleştirdiğinizde KL'nin derin bir anlamı vardır , iki "yakın" dağılım arasındaki jeodezik mesafeyi verir. resmen:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Aşağıdaki satırlar, bu matematiksel formüllerle ne kastedildiğini ayrıntılarıyla açıklamak için burada.

Fisher metriğinin tanımı.

D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

DF(θ)

Şunu söyleyebilirsiniz ... Tamam matematiksel soyutlama ama KL nerede?

p=1F11

ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

ve Kullback Leibler Diverjansının iki katı olduğu bilinmektedir:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Bununla ilgili daha fazla bilgi edinmek isterseniz makaleyi Amari'den okumanızı öneririm http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Bence Amari hakkında bir kitap var istatistikte riemann geometrisi ama adını hatırlamıyorum)


Lütfen LaTeX'inize $ ekleyin. Şimdi tamamlanmalıdır. Bkz. Meta.math.stackexchange.com/questions/2/…
Rob Hyndman

1
Ben bir matematikçi ya da istatistikçi olmadığım için, yanlış anlamadığımdan emin olmak için söylediklerinizi yeniden ifade etmek istiyorum. Yani, ds ^ 2 (KL'nin iki katı) almanın genel dağılım için R ^ 2 (bir regresyon modelinde) ile benzer bir anlama sahip olacağını söylüyorsunuz. Ve bu aslında mesafeleri geometrik olarak ölçmek için kullanılabilir mi? Bu konuda daha fazla okuma yapabilmek için ds ^ 2'nin bir adı var mı. Bu metriği doğrudan tanımlayan ve uygulamaları ve örnekleri gösteren bir makale var mı?
Ampleforth

Bence konuyu anlamaktan çok uzaksınız ve şimdi daha ileriye gitmeye çalışmanız gerektiğinden emin değilim. Motive olursanız, bahsettiğim Bradley Efron'dan veya Amari projecteuclid.org/… ' dan gelen makaleyi okuyabilirsiniz .
robin girard

1
Bu, KL'nin kendisinden ziyade KL'nin yönlü türevinin bir karakterizasyonu gibi görünmektedir ve KL sapmasını çıkarmak mümkün değildir, çünkü türevin aksine, KL sapması manifoldun geometrisine bağlı değildir
Yaroslav Bulatov

7

P (.) Ve q (.) Dağılımları arasındaki KL (p, q) ayrışmasının yararlı bulabileceğiniz sezgisel bir bilgi teorik yorumu vardır.

Bazı olasılık dağılımı p (.) Tarafından üretilen verileri x gözlemlediğimizi varsayalım. P (.) Tarafından üretilen verileri belirtmek için gereken bit cinsinden ortalama kod uzunluğuna bir alt sınır, p (.) Entropisi tarafından verilir.

Şimdi, p (.) Bilmediğimizden, verileri kodlamak (veya tanımlamak, belirtmek) için başka bir dağıtım, diyelim ki q (.) Seçiyoruz. P (.) Tarafından oluşturulan ve q (.) Kullanılarak kodlanan verilerin ortalama kod uzunluğu, kodlama için gerçek p (.) Dağılımının kullanılmasından daha uzun olacaktır. KL sapması bize bu alternatif kodun verimsizliğini anlatıyor. Başka bir deyişle, p (.) Ve q (.) Arasındaki KL sapması, kod dağıtımı q (.) Kullanılarak p (.) Tarafından üretilen verileri kodlamak için gereken ortalama ekstra bit sayısıdır . KL sapması negatif değildir ve gerçek veri üretme dağılımı verileri kodlamak için kullanılırsa sıfıra eşittir.


2

Sorunuzun (b) kısmı için, dağıtımlarınızdan birinin diğerinin bulunmadığı bir bölgede yoğunluğu sorunu yaşıyor olabilirsiniz.

D(PQ)=pilnpiqi

ipi>0qi=0qi=0qi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.