Bayesyan posterior neden KL ıraksamasının minimizatörü etrafında yoğunlaşıyor?


9

Bayesci posterior düşünün . Asimptotik, maksimum MLE tahmini oluşur sadece olasılığı en üst düzeye çıkarır, .θXθ^argminθfθ(X)

Tüm bu kavramlar - Bayesian öncelikleri, olasılığı en üst düzeye çıkarıyor - kulağa süper ilkeli ve hiç de keyfi değil. Görünürde bir giriş yok.

Yine de MLE, gerçek dağıtım ve arasındaki KL sapmasını en aza indirir , yani,f~fθ(x)

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Woah — bu kütükler nereden geldi? Neden özellikle KL sapması?

Örneğin, neden farklı bir sapmanın en aza indirilmesi, Bayes posteriorlarının süper ilkeli ve motive edilmiş konseptlerine karşılık gelmiyor ve yukarıdaki olasılığı en üst düzeye çıkarıyor?

Bu bağlamda KL sapması ve / veya günlükleri hakkında özel bir şey var gibi görünüyor. Tabii ki, ellerimizi havaya fırlatabilir ve matematiğin böyle olduğunu söyleyebiliriz. Ama ortaya çıkarmak için daha derin bir sezgi veya bağlantı olabileceğinden şüpheleniyorum.


Burada bazı fikirler bulabilirsiniz: stats.stackexchange.com/questions/188903/…
kjetil b halvorsen

@kjetilbhalvorsen Önceki başlık kopya gibiydi; Özür dilerim. Bir düzenleme yaptım ve bu sorunun neden yinelenmediği açık olmalı.
Yatharth Agarwal

Diğer sorular “KL sapması nedir ve neden simetrik değil?” Diye soruyor. Cevaplar bir ıraksama kavramını ve KL hakkında bazı bilgileri açıklıyor. Aksine, bu soru “Bayesyan posterior neden KL ıraksamasının en aza indirgeyici etrafında yoğunlaşıyor?” Diye soruyor. Diverjansların nasıl simetrik olması gerekmediğini açıklamak ve KL'nin MLE'ye bağlı olduğunu açıklamak ve KL'nin MLE'ye bağlı olduğunu belirtmek, buradaki sorunun temelini ele alamıyor: KL'nin neden birçok olası ıraksama arasında özellikle Bayes posterioruyla özel bir bağlantısı var. Bu mantıklı mı?
Yatharth Agarwal

Evet, mantıklı, ama yine de bir sorun var. Posterior da öncekine bağlıdır ve bu güçlü ise, posteriorun mle'den maksimum uzaklıkta olabilir. Ama önceki soruda yok.
kjetil b halvorsen

@kjetilbhalversen Asimptotik olarak daha fazla IID numunesi ve öncekinin asimptotik olarak önemli olmadığı (katı) koşullar altında demek istedim!
Yatharth Agarwal

Yanıtlar:


5

Bu gibi hesaplamalarda logaritmaların kullanımı bilgi teorisinden gelir . KL sapması özel durumunda, önlem iki dağılımın göreceli bilgisi olarak yorumlanabilir:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

nerede H(f~)olduğu entropi arasındaf~ ve H(f~,fθ) çapraz entropisidir. f~ ve fθ. Entropi, bir yoğunluk tarafından üretilen ortalama oranın ölçüsü olarak kabul edilebilir (çapraz entropinin biraz daha karmaşık olduğunu düşünür). Sabit bir değer için KL sapmasını en aza indirmef~ (bahsettiğiniz problemde olduğu gibi) çapraz entropiyi en aza indirmeye eşdeğerdir ve bu nedenle bu optimizasyona bilgi teorik bir yorum verilebilir.

Kısa bir yazıda bilgi teorisini ve bilgi önlemlerinin özelliklerini iyi bir şekilde açıklamak mümkün değil. Bununla birlikte, istatistiğe yakın bağlantıları olduğu için alana bir göz atmanızı tavsiye ederim. Yoğunlukların logaritmaları üzerindeki integralleri ve toplamları içeren birçok istatistiksel önlem, ölçü teorisinde kullanılan standart bilgi önlemlerinin basit kombinasyonlarıdır ve bu gibi durumlarda, çeşitli yoğunluklarda, altta yatan bilgi seviyeleri açısından yorumlar verilebilir.


Bilgi teorisine bakmak umut verici geliyor! Beni işaret ettiğin için teşekkürler.
Yatharth Agarwal

Açıkçası, bir StackExchange yazısında tüm bir matematiksel alanı açıklayamazsınız, ancak günlüğün ortaya çıktığı bunlara ilişkin belirli referanslarınız olur mu?
Yatharth Agarwal

Bence, neden E'nin denkleminde olduğu gibi derin bir sezgi olduğunu düşünüyorum ve böyle bir sezgi burada gizleniyor. Belki bir yerde bir ürün doğal logaritmayı ortaya çıkarır. Emin değilim.
Yatharth Agarwal

@Larharith, Shannon entropisinin tanımındaki merkezi rolü nedeniyle burada ortaya çıkar. "Neden" e gelince, bir logaritma bilgi ölçüsü için uygundur, başka bir işlevin aksine, Shannon'ın "Matematiksel İletişim Kuramı" ndaki teorem 2'ye bakın. Ayrıca, Jayne'nin "Bilgi Teorisi ve İstatistiksel Mekanik" hoş bir tanıtımdır.
Nate Pope
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.