Mantık olasılığını ve olabilirliği kullanmak için teorik motivasyon


18

İstatistik ve olasılık teorisinde log-olasılık olasılığını (ve belki de daha genel olarak log-olasılığını) daha derin bir düzeyde anlamaya çalışıyorum. Log olasılıkları her yerde ortaya çıkıyor: genellikle analiz için log-olasılık ile çalışıyoruz (örneğin maksimizasyon için), Fisher bilgisi log-olasılığın ikinci türevi olarak tanımlanır, entropi beklenen bir log-olasılıktır , Kullback-Liebler ıraksaması log olasılıklarını içerir, beklenen diviance beklenen log olabilirliği vb.

Şimdi birçok pratik ve kullanışlı nedeni takdir ediyorum . Birçok yaygın ve kullanışlı pdf, üstel ailelerden gelir ve bu da log dönüştürüldüğünde zarif bir şekilde basitleştirilmiş terimlere yol açar. Toplamlar çalışmaktan daha kolaydır (farklılaştırma için esp). Log-probların düz problara göre büyük bir kayan nokta avantajı vardır. Bir pdf'nin günlük dönüşümü genellikle içbükey olmayan bir işlevi içbükey bir işleve dönüştürür. Fakat kütük probları için teorik neden / gerekçe / motivasyon nedir?

Şaşkınlığımın bir örneği olarak, Fisher bilgilerini (FI) düşünün. FI'yı sezmek için genel açıklama, log-olasılığının ikinci türevinin bize log-benzerliğinin ne kadar "zirve" olduğunu söylemesi: yüksek doruğa sahip bir log-olasılık, MLE'nin iyi tanımlandığı anlamına gelir ve değerinin göreceli olarak eminiz , neredeyse düz bir günlük benzeri (düşük eğrilik), birçok farklı parametre değerinin MLE kadar neredeyse (günlük olabilirliği açısından) iyi olduğu anlamına gelir, bu nedenle MLE'miz daha belirsizdir.

Tüm bunlar iyi ve iyi, ancak olasılık fonksiyonunun kendisinin eğriliğini bulmak daha doğal değil mi (log dönüşümü DEĞİL)? İlk bakışta log-dönüşümü üzerindeki vurgu keyfi ve yanlış görünüyor. Elbette gerçek olabilirlik fonksiyonunun eğriliği ile daha çok ilgileniyoruz. Bunun yerine Fisher'in skor fonksiyonu ve Hessian ile çalışabilme motivasyonu neydi?

Cevap basitçe, sonuçta, günlük olasılığından asimptotik olarak güzel sonuçlar aldığımız mı? Örneğin, Cramer-Rao ve MLE / posteriorun normalliği. Yoksa daha derin bir neden var mı?


Yanıtlar:


13

Gerçekten sadece mantıksallık için bir kolaylık, başka bir şey değil.

Toplamların ürünlere karşı kolaylığını kastediyorum: , toplamların diferansiyel veya entegrasyon gibi birçok açıdan ele alınması daha kolaydır. Sadece üstel aileler için kolaylık değil, demeye çalışıyorum.ln(ixi)=ilnxi

Rastgele bir örnekle uğraştığınızda , olasılıklar şu şekildedir: , bu nedenle mantıksallık, bu ürünü, bunun yerine manipüle edilmesi ve analiz edilmesi daha kolay olan toplamın içine böler. Umursadığımız her şeyin maksimumun noktası olmasına yardımcı olur, maksimumdaki değer önemli değildir, yani logaritma gibi monoton dönüşümleri uygulayabiliriz.L=ipi

Eğrilik sezgisinde. Temelde sonunda mantıksallığın ikinci türevi ile aynı şey.

GÜNCELLEME: Eğrilikte kastettiğim bu. fonksiyonunuz varsa , eğriliği Wolfram'da (14'e bakınız ) olacaktır: κ = f ( x )y=f(x)

κ=f(x)(1+f(x)2)3/2

Günlük olasılığının ikinci türevi:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

Maksimum noktasında, ilk türev açıkça sıfırdır, bu yüzden şunu elde ederiz: Dolayısıyla, quip olasılıkın eğriliğidir ve mantıksallığın ikinci türevi de aynı şeydir.

κmax=f(xmax)=Af(xmax)

Büyük olasılıkla ilk türev de ancak maksimum nokta etrafında sadece küçükse Öte yandan, yani olabilirlik fonksiyonu o zaman olsun düzdür: düz olabilirlik Şimdi bizim için iyi bir şey değildir, çünkü maksimum değeri sayısal olarak daha zor hale getirir ve maksimum olasılık etrafındaki diğer noktalardan daha iyi değildir, yani parametre tahmin hataları yüksektir.

κf(x)Af(x)

Ve yine, hala eğrilik ve ikinci türev ilişkimiz var. Peki Fisher neden olabilirlik fonksiyonunun eğriliğine bakmadı? Aynı rahatlık nedeni ile düşünüyorum. Ürün yerine toplamlar nedeniyle mantıksallığı değiştirmek daha kolaydır. Böylece, mantık olasılığının ikinci türevini analiz ederek olasılığın eğriliğini inceleyebilirdi. Denklem eğriliği için çok basit görünse de , gerçekte, ürünün ikinci türevlerin toplamından daha karışık olan ikinci bir türevini alıyorsunuz.κmax=f(xmax)

GÜNCELLEME 2:

İşte bir gösteri. (Tamamen oluşturulmuş) bir olasılık fonksiyonu, a) eğriliği ve b) kütüğünün 2. türevi çiziyorum. Sol tarafta dar olasılığı görüyorsunuz ve sağ tarafta geniş. Maksimum olabilirlik noktasında a) ve b) olması gerektiği gibi nasıl birleştiklerini görürsünüz. Daha da önemlisi, olabilirlik fonksiyonunun genişliğini (veya düzlüğünü) log-olasılığının 2. türevini inceleyerek inceleyebilirsiniz. Daha önce yazdığım gibi, ikincisi analiz etmek için öncekinden teknik olarak daha basittir.

Şaşırtıcı derecede daha derin olmayan 2. mantıksallık türevi, maksimumu etrafında daha düz olasılık fonksiyonunu gösterir, bu da daha büyük parametre tahmin hatasına neden olur.

resim açıklamasını buraya girin

Grafikleri yeniden oluşturmak istediğinizde MATLAB kodu:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

GÜNCELLEME 3:

Yukarıdaki kodda, eğrilik denklemine keyfi çan şekilli bir fonksiyon ekledim, daha sonra logunun ikinci türevini hesapladım. Hiçbir şeyi yeniden ölçeklemedim, değerler daha önce bahsettiğim denkliği göstermek için doğrudan denklemlerden.

İşte Fisher'ın hala üniversitedeyken yayınladığı ilk makale, "Frekans Eğrilerini Takmak için Mutlak Bir Kriter Üzerine", Messenger of Mathmatics, 41: 155-160 (1912)

logP=1nlogp

logP=logfdx
P

Belgeyi okurken dikkat edilmesi gereken bir şey, sadece maksimum olasılık tahmini çalışmasıyla başladı ve sonraki 10 yıl içinde daha fazla iş yaptı, bu yüzden MLE terimi bile bildiğim kadarıyla üretilmedi.


5
Son cümleniz (eğrilik hakkında), günlük olasılığına ilişkin temel bir şey olduğunu ve günlükleri almanın sadece bir "kolaylık" olmadığını ima eder. Burada izin verdiğinizden çok daha fazlası olduğuna inanıyorum.
whuber

2
Eğrilik tartışmanız uygun görünmemektedir, çünkü günlük olasılık analizini, olasılığın kendi analizinden ayırmaz. Bu yanıt "günlükler uygundur" a geliyor gibi görünüyor, ancak diğer cevaplar önerilmeye başladığı için bu konudan çok daha fazlası var.
whuber

f(xmax)f(xmax)=1

Dolayısıyla, Fisher bilgisi için log-olasılığını kullanmak görünüşte iki pratik amaca hizmet eder: (1) log-olasılıklarla çalışmak daha kolaydır ve (2) doğal olarak rasgele ölçeklendirme faktörünü göz ardı eder. Ve, düz olasılığın 2. türevi ile aynı cevabı verir. Bu benim için önemli bir nokta gibi görünüyor. Muhtemelen Fisher tarafından biliniyordu.
ratsalad

f(xmax)=(lnf(x))f(xmax)
f(xmax)=1
f(xmax)=(lnf(x))

5

Ek nokta . Yaygın olarak kullanılan bazı olasılık dağılımları (normal dağılım, üstel dağılım, Laplace dağılımı, sadece birkaçı da dahil olmak üzere) log içbükeydir . Bu, logaritmalarının içbükey olduğu anlamına gelir. Bu, günlük olasılığını en üst düzeye çıkarmak için orijinal olasılığı en üst düzeye çıkarmaktan çok daha kolay hale getirir (maksimum olasılık veya maksimum posterior yöntemlerde özellikle kullanışlıdır). Bir örnek vermek gerekirse, Newton'un çok değişkenli bir Gauss dağılımını en üst düzeye çıkarmak için yönteminin kullanılması, bir paraboloidi (çok değişkenli Gauss dağılımının günlüğü) maksimuma çıkarmak tam olarak bir adım alır.


2
Çok hızlı değil. Web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf'in 393-394
Mark L. Stone

Bu günlük içbükey değil. Gaussian, değişkenine wrt değil, argümanına veya ortalama parametresine log-konkav wrt şeklindedir. Ölçeği de belirlemek istiyorsanız, aynı zamanda log-konkav olan normal bir gama dağılımı kullanabilirsiniz (varyans yerine hassasiyeti kullanarak).
Luca Citi

2
Kesinlikle bu. Günlüklerin nasıl daha uygun olduğu hakkındaki tüm konuşmalar güzeldir, ancak dışbükeylik (veya perspektife bağlı içbükeylik), günlük olasılıkla birlikte çalışılması gereken "doğru" şey olarak ayıran şeydir.
Meni Rosenfeld

2
OP'de günlük içbükeyliğinden daha önce bahsettiğimi unutmayın. Ama bu hala sadece bir "kolaylık", burada log-içbükeylik için teorik bir gerekçe yoktur ve her durumda log-olasılıkları genellikle log-konkav değildir.
ratsalad

1
@ratsalad, evet, haklısın, kolaylık. Bence log olasılıkları olasılık fonksiyonuna bakmanın ek bir yoludur. Hangisinin daha iyi olduğunu kesin olarak söyleyemem. Eğer bakarsanız [ En.wikipedia.org/wiki/… önlemlerine) , bazıları log olasılığı üzerinde etkili bir şekilde çalışır (örneğin log olasılıkları farkının beklenen değeri olan KL sapması), bazıları doğrudan olasılık ( örneğin KS mesafesi).
Luca Citi

4

Log-olasılığın teorik önemi (en azından) iki açıdan görülebilir: asimtotik olabilirlik teorisi ve bilgi teorisi.

Bunlardan daha önce (sanırım) asimptotik log-olasılık teorisi. Bence Fisher 20. yüzyıl hakimiyetine doğru azami olasılık belirledikten sonra bilgi teorisi başladı.

Olabilirlik teorisinde, parabolik bir log olabilirliği çıkarımda merkezi bir yere sahiptir. Lucien Le Cam, asimptotik teoride kuadratik log-olasılığın öneminin açıklanmasında önemli bir rol oynamıştır .

Karesel bir günlük olasılığınız olduğunda, sadece MLE ile ilgili eğrilik, parametreyi ne kadar kesin olarak tahmin edebileceğinizi niteliksel olarak anlatmakla kalmaz, aynı zamanda hatanın normal olarak eğriliğin karşılıklılığına eşit bir varyansla dağıtıldığını da biliriz. Log olabilirliği yaklaşık ikinci dereceden olduğunda, bu sonuçların yaklaşık olarak veya asemptolojik olduğunu söyleriz.

İkinci neden, bilgi içeriğini ölçmek için kullanılan ana miktarın bilgi teorisinde log-olasılığının (veya log-olasılığının) öne çıkmasıdır .

ggf(θ)f(θ^)θ^

lnL^

Dolayısıyla, log olasılıkının, yararlı bir sayısal dönüşüm olmasının yanı sıra, çıkarım ve bilgi teorisi ile derin bağları vardır.


Bilgi teorisinin log-olasılıkları kullanımına referansınız daireseldir. Neden yok onlar günlüğü kullanmak? Muhtemelen aynı nedenden dolayı, özellikle de bilgi teorisinin istatistiklere göre nispeten daha yeni bir alan olduğunu düşünüyorsanız.
Aksakal

@Aksakal evet ve hayır. Bilgi teorisi temellerini kısmen istatistiksel mekanik ve entropiden almıştır: en.wikipedia.org/wiki/Entropy . Boltzmann bir sistemin entropisini mikro sayıların logunu kullanarak tanımladı. Neden günlükler? Entropi / bilgi katkısı yaptığı için (cevabınızın işaret ettiği gibi)? Ne olmuş yani? Sayısal düzeyde, doğrusallık / katkı, güçlü doğrusal cebir yöntemlerinin kullanımını açar.

1
@Aksakal, daha temel bir düzeyde toplanırlık, entropiyi / bilgiyi bir ölçü gibi bir şeye dönüştürür. İstatistiksel olarak bağımsız iki sistemi birleştirirseniz, kombine sistemin entropisi her sistemin entropisinin toplamıdır. İşte güzel explainer var: physics.stackexchange.com/questions/240636/...

1
@Bey Termodinamik istatistiksel entropi aslında doğrudan mikrodisimlerin ve klasik makroskopik termoların Boltzmann dağılımından (stat mech entropi formu bir "seçenek" değildi) doğrudan gelir. Boltzmann dağılımının kendisi iki binanın bir sonucudur: (1) enerjilerin sadece keyfi bir katkı sabitine kadar belirtildiği fiziksel özellik ve (2) aynı enerjiye sahip tüm mikro-yapıların aynı olasılığa sahip olduğu temel istatistik mekanik varsayımı. Bu nedenle, en derin seviyede termo entropi log-probları içerir, çünkü enerji log-prob ile orantılıdır ve orantılıdır.
ratsalad

2
@ratsalad bu konuda genişlediğiniz için teşekkürler ... gördüğünüz gibi, basit "günlükler daha kolay" ötesinde almak günlük olabilirlik açıklamaları oldukça uzak bir süre alabilir. Aksakal'ın verdiği nedenlerden dolayı günlük olasılığını kullanıyorum ... ancak OP'niz daha derin bir şey istedi. İstatistik ve olasılık teorisini etkileyen diğer alanlarla bağlantıları gösteren iki örnek verdim. Bence asimptotik açıklamalar daha doğrudan, ancak entropi ve olasılık, günlük olasılıkları ilgilendiğimiz şeyleri sadece sayısal rahatlığın ötesinde yapan şekillerde bağlantılıdır.

0

TLDR: Toplamları elde etmek ürünlerden çok daha kolaydır, çünkü türev operatörü toplamla doğrusaldır, ancak u ürünü ile ürün kuralını yapmak zorundadır. Bazı yüksek mertebeden polinom karmaşıklığına karşı doğrusal karmaşıklıktır


3
Sorunun anlamı "pratik ve pratik". Analizin günlük olasılığına odaklanmasının tek veya hatta ana nedeninden uzaktır. Örneğin, Fisher Bilgisi ifadesinin günlük olasılığı yerine olasılık olarak nasıl görüneceğini düşünün.
whuber

evet kesin; Bence doğrudan bulmak "daha kolay" dediğinde, bunun tam tersini kastettiğini düşündüm, çünkü log dönüşümünü uyguladıktan sonra bulmak daha kolaydır.
Charlie Tian
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.