Maksimum Entropi Dağılımının istatistiksel yorumu


23

Çeşitli ortamlarda birkaç dağıtımın kullanımını doğrulamak için maksimum entropi ilkesini kullandım; Bununla birlikte, henüz bilgi teorik olarak, maksimum entropinin yorumlanmasının aksine bir istatistik formüle edebildim. Başka bir deyişle, entropiyi en üst düzeye çıkarmak, dağılımın istatistiksel özellikleri hakkında ne anlama geliyor?

Kimsenin karşısına geçip veya belki de maks. Bilgiye hitap etmeyen, sadece olasılık kavramlarına hitap eden entropi dağılımları?

Böyle bir yorumlamaya örnek olarak (zorunlu olarak doğru değil): "RV alanı üzerinde isteğe bağlı bir uzunluk L aralığında (basitliği için 1-b sürekli olduğu varsayılırsa), bu aralıkta bulunabilecek maksimum olasılık en aza indirilir. maksimum entropi dağılımı. "

Öyleyse, “bilişimcilik” ya da diğer daha felsefi fikirler hakkında konuşma olmadığını, sadece olasılıksal sonuçların olduğunu görüyorsunuz.


3
Aradığın şey hakkında daha spesifik olman gerektiğini düşünüyorum: entropi, sonuçta "istatistiksel", varyans vb. Gibi bir ölçüdür, bu yüzden maksimum entropi dağılımı, entropiyi en üst düzeye çıkarırken mükemmel bir istatistiksel tanımdır. Bana öyle geliyor ki, bir "gerekçe" ile gelmek için dışarıdan istatistiklere gitmelisiniz
seanv507

1
Seanv: İstatistiksel bir işlev olarak entropinin, varyans, beklenen değer, çarpıklık gibi "istatistiksel" olduğu kadar aynı fikirdeyim. Ancak, örnek olarak ortalama ve standart sapmayı kullanarak, bunlar Markov ve Chebyshev'in teoremleri ve sonuçta bir dizi merkezi limit teoreminden biri ve ayrıca sezgisel olarak uzun süreli toplamlar (ortalama için) ve RMS hatası (standart sapma için). Belki de "Maksimum entropi dağılımlarının olasılıksal yorumu" bölümünü okumak için sorumu tekrarlamalıyım.
Annika

1
Annika, Maksimum entropi dağılımı aşağıdaki yorumu vardır: Eğer iid rasgele değişkenler, daha sonra şartlı probalitity olan P ( | X 1 + + X n = n bir ) P * ( ) olarak n ∞ iken burada P * kümesinden en entropi dağılımı { P : D p X = bir }X1,X2,...P(|X1++Xn=na)P()nP{P:EPX=a}. Ayrıca bakınız: ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
Ashok

2
Sağol Ashok. O kağıda daha ayrıntılı bir şekilde bakalım. Bu, belirli bir ortalama için entropiyi maksimize etmek için özel bir durum gibi gözüküyor, ancak Shanon entropisini maksimize etme işleminin matematiksel olarak yukarıdaki sonucun gerçekleşeceği şekilde ne yaptığını merak ediyorum. Olasılık ölçüsünün maksimum yoğunluğunu veya ortalama konsantrasyonunu etkili bir şekilde minimize ediyor mu?
Annika

Yanıtlar:


19

Bu gerçekten benim alanım değil, yani bazı musings:

Sürpriz kavramı ile başlayacağım . Şaşırmanın anlamı nedir? Genellikle, olması beklenmeyen bir şey olduğu anlamına gelir. Öyleyse, onu olasılıklı bir kavram olarak şaşırtın ve bunun gibi açıklanabilir (IJ Good bu konuda yazmıştır). Ayrıca bakınız Wikipedia ve Bayesian Sürprizi .

Belirli bir evet / hayır durumu örneğini alın, bir şey olabilir ya da olmayabilir. Olasılık p . P = 0.9 ve gerçekleşirse, gerçekten şaşırmadığınızı söyleyin. Eğer p=0.05 ve anı, sen biraz şaşırırlar. Ve eğer p=0.0000001 ve olursa, gerçekten şaşırırsınız. Bu nedenle, "gözlenen sonuçtaki sürpriz değer" in doğal bir ölçüsü, olanın olasılığının bazı (anti) monoton işlevidir. Olanların olasılığının logaritmasını almak doğal görünüyor (ve iyi çalışıyor ...) ve sonra pozitif bir sayı elde etmek için eksi işaretini atıyoruz. Ayrıca, logaritmayı alarak, sürprizin sırasına odaklanıyoruz ve pratikte, olasılıklar genellikle sadece sırayla, az çok sırayla bilinir .

Böylece,

Sürpriz(bir)=-günlükp(bir)
'nın bir gözlenen sonuç olduğu, p(bir) olasılık olduğunu belirledik .

Şimdi beklenen sürprizin ne olduğunu sorabiliriz . Let X ihtimali olan bir Bernoulli rastgele değişken p . İki olası sonucu 0 ve 1'dir. İlgili sürpriz değerleri

Surprise(0)=log(1p)Surprise(1)=logp
böyleceXgözlemlerken sürpriz, beklenti ile rasgele bir değişkendir
plogp+(1p)log(1p)
ve bu --- sürpriz! ---Xentropisi! Yani entropininsürprizolmasıbekleniyor!

Şimdi, bu soru maksimum entropi ile ilgili . Neden birileri maksimum bir entropi dağılımı kullanmak istesin ki? Öyle olmalı, çünkü en fazla şaşırtmak istiyorlar! Neden kimse bunu istesin ki?

Buna bakmanın bir yolu şudur: Bir şey öğrenmek istersiniz ve bu amaç için bazı öğrenme deneyimleri (veya deneyleri ...) kurarsınız. Bu konuyla ilgili her şeyi zaten biliyorsan, her zaman mükemmel bir şekilde tahmin edebiliyorsun, bu yüzden hiç şaşırmadım. O zaman asla yeni bir deneyim edinemezsiniz, bu yüzden yeni bir şey öğrenmeyin (ama zaten her şeyi biliyorsunuz --- öğrenecek bir şey yok, o yüzden sorun değil). Kafanızın karıştığı daha tipik bir durumda, mükemmel bir şekilde tahmin edemiyorum, bir öğrenme fırsatı var! Bu, "olası öğrenme miktarını" beklenen sürpriz , yani entropi ile ölçebileceğimiz fikrine yol açar . Dolayısıyla, entropiyi en üst düzeye çıkarmak, öğrenme fırsatını en üst düzeye çıkarmaktan başka bir şey değildir. Bu, deneyler ve bu gibi şeyleri tasarlamada faydalı olabilecek faydalı bir konsepte benziyor.

Şiirsel bir örnek iyi bilinmektedir

Wenn einer eine reise macht, dann kann er erzählen oldu ...

Pratik bir örnek: Çevrimiçi testler için bir sistem tasarlamak istiyorsunuz (çevrimiçi, herkes aynı soruları almaz, önceki cevaplara bağlı olarak sorular dinamik olarak seçilir, bu nedenle her kişi için bir şekilde optimize edilmiştir).

Çok zor sorular yaparsanız, asla uzmanlaşmazlarsa, hiçbir şey öğrenemezsiniz. Bu, zorluk seviyesini düşürmeniz gerektiğini gösterir. Optimal zorluk seviyesi nedir, yani öğrenme oranını maksimize eden zorluk seviyesi? Doğru cevap olasılığının p olmasını sağlayın . Bernoulli entropisini maksimize eden p değerini istiyoruz . Ancak bu p=0.5 . Bu nedenle (bu kişiden) doğru bir cevap alma olasılığının 0.5 olduğu soruları belirtmeyi amaçlıyorsunuz.

Sonra sürekli rastgele değişken X . X gözlemleyerek nasıl şaşırırız ? Belirli bir sonucun olasılığı {X=x} sıfırdır, logp tanımı işe yaramaz. Fakat x gibi bir şeyi gözlemleme olasılığı küçükse, yani f(x) yoğunluk işlevi değeri küçükse ( f sürekli olduğunu varsayarsak ) şaşırırız . Bu Surprise ( x ) = - log f ( x ) tanımına götürür

Surprise(x)=logf(x)
Bu tanım sayesinde, gözlemleyerek beklenen sürpriz X olan
E{logf(X)}=f(x)logf(x)dx
olduğu, gözlemleyerek beklenen sürprizX ayırıcı entropi olanX . Beklenen mantıksallık olarak da görülebilir.

Ama bu gerçekten ilk olay, dava ile aynı değil. Bunu da gör, bir örnek. Rastgele değişken X bir taş atma uzunluğunu temsil etmesine izin verin (spor müsabakasında). Bu uzunluğu ölçmek için bir uzunluk birimi seçmemiz gerekir, çünkü olasılık için olduğu gibi, uzunluk için gerçek bir ölçek yoktur. Metre cinsinden mm veya km cinsinden veya daha genel olarak ölçüm yapabiliriz. Fakat bizim sürpriz tanımımız, dolayısıyla beklenen sürpriz, seçilen birime bağlıdır, bu nedenle değişmezlik yoktur. Bu nedenle, diferansiyel entropinin değerleri, Shannon entropisinin olduğu gibi doğrudan karşılaştırılamaz. Biri bu sorunu hatırlarsa yine de faydalı olabilir.


5
Bu, gördüğüm maksimum entropinin en iyi ve sezgisel açıklamalarından biri!
Vladislavs Dovgalecs

3

Bilgi teorisi ve maksimum entropi konusunda uzman olmamasına rağmen, bir süredir ilgileniyorum.

Entropi, bir dizi kritere göre türetilmiş bir olasılık dağılımının belirsizliğinin bir ölçüsüdür. Bu ve ilgili önlemler olasılık dağılımlarını karakterize eder. Ve bu kriterleri karşılayan eşsiz bir ölçü. Bu, Jaynes (2003) 'te güzel bir şekilde açıklandığı gibi, herhangi bir mantıksal ifadenin belirsizliği ölçüsü için çok istenen bazı kriterleri karşılayan eşsiz bir ölçü olan olasılık durumuna benzemektedir.

Entropiden farklı bir olasılık dağılımının belirsizliğinin başka bir ölçüsü, entropiyi tanımlamak için kullanılan kriterlerden bir veya daha fazlasını ihlal etmek zorunda kalır (aksi halde mutlaka entropi olur). Eğer olasılık bakımından bazı genel beyanı olsaydı Yani, her nasılsa o zaman olur ... maksimum entropi aynı sonuçları vermiştir olmak maksimum entropi!

Bugüne kadar maksimum entropi dağılımları hakkında bir olasılık ifadesine bulabileceğim en yakın şey Jaynes'in konsantrasyon teoremidir . Kapur ve Kesavan'da (1992) açıkça açıklanmış olarak bulabilirsiniz. İşte gevşek bir yeniden ifade etme:

pnpii=1,...,nmm+1

Sm+1Smax

N

2N(SmaxS)χnm12.

(Smaxχnm12(0.95)2N,Smax).
Smaxχnm12(0.95)2N

ET Jaynes (2003) Olasılık Teorisi: Bilim Mantığı. Cambridge Üniversitesi Basını.

JN Kapur ve .K. Kesavan (1992) Entropi Optimizasyon İlkeleri ve Uygulamaları. Akademik Basın, Inc


3

Muhtemelen tam olarak neyin peşinde olduğunuzu değil, Rissanen'de, J. İstatistiksel Sorgulamada Stokastik Karmaşıklık , World Scientific, 1989, s. 41 maksimum entropinin, normal dağılımın ve merkezi limit teoreminin ilginç bir bağlantısı var. Ortalama sıfır ve standart sapma ile tüm yoğunluklar arasındaσnormal yoğunluk maksimum entropiye sahiptir.

“Dolayısıyla, bu yorumlamada, temel merkezi limit teoremi, ortalama sıfır ve ortak varyansa sahip bağımsız rasgele değişkenlerin toplamlarının sembol başına entropisinin, maksimuma eğiliminde olduğu gerçeğini ifade eder. Bu, oldukça makul görünmektedir; aslında, Eddington'un “Doğa yasaları arasında en üst düzey pozisyon” olarak gördüğü ikinci termodinamik yasası.

Bunun sonuçlarını henüz henüz keşfetmedim, ne de tam olarak anladığımdan emin değilim.

[değiştir: sabit yazım hatası]

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.