Olasılık dağılımı tekdüze olduğunda Entropi neden maksimize ediliyor?


32

Entropinin bir işlem / değişkenin rastgelelik ölçüsü olduğunu biliyorum ve şöyle tanımlanabilir. kümesindeki rastgele bir değişkeni için : - . MacKay'ın Entropi ve Enformasyon Teorisi kitabında, Ch2'deki bu açıklamayı sağlar.XAH(X)=xiAp(xi)log(p(xi))

P tekdüze ise entropi maksimize edilir.

Sezgisel olarak, kümesindeki tüm veri noktalarının eşit olasılık ( , kümesinin ana değeridir) ile seçildiyse , o zaman rastlantısallık ya da entropi artar gibi. Ancak, kümesindeki bazı noktaların diğerlerinden daha fazla olasılıkla ortaya çıkacağını bilirsek (normal dağılım durumunda, maksimum veri noktası konsantrasyonunun etrafındaki ortalama ve küçük standart sapma alanı olduğu, yani rasgele olduğu durumlarda) veya entropi azalmalı.A1/mmAA

Fakat bunun için matematiksel bir kanıt var mı? denklemi gibi onu göre farklılaştırırım ve 0 ya da benzeri bir şeye ayarladım.H(X)p(x)

Bir yandan, bilgi teorisini meydana getiren entropi ile kimyadaki entropi hesaplamaları arasında herhangi bir bağlantı var mı (termodinamik)?



Christopher Bishops kitabında, “tek bir gerçek değişken için entropiyi en üst düzeye çıkaran dağılımın Gaussyalı olduğunu” belirten bir başka ifadeyle oldukça kafam karıştı. Aynı zamanda, "verilen kovaryans için, maksimal entropi ile çok değişkenli dağılımın bir Gauss olduğunu" da belirtir. Bu ifade nasıl geçerlidir? Tekdüze dağılımın entropisi her zaman maksimum mu?
user76170

6
Büyütme her zaman olası çözüm üzerindeki kısıtlamalara tabi olarak gerçekleştirilir. Kısıtlamalar tüm olasılıkların önceden tanımlanmış sınırların ötesine geçmesi gerektiği durumlarda, maksimum entropi çözümü aynıdır. Bunun yerine kısıtlamalar beklenti ve varyansın önceden tanımlanmış değerlere eşit olması gerektiği olduğunda, ME çözümü Gauss'tur. Alıntı yaptığınız ifadeler, bu sınırlamaların belirtildiği veya en azından dolaylı olarak anlaşıldığı belirli bağlamlarda yapılmış olmalıdır.
whuber

2
Muhtemelen, "entropi" kelimesinin Gauss ayarında buradaki orijinal sorudan farklı bir şey ifade ettiğini de belirtmeliyim, çünkü o zaman sürekli dağılımların entropisini tartışıyoruz . Bu "diferansiyel entropi" , ayrık dağılımların entropisinden farklı bir hayvandır. Baş fark, diferansiyel entropinin, değişkenlerin değişmesi altında değişmez olmasıdır.
whuber

Peki, bu maksimumlaştırmanın her zaman kısıtlamalarla ilgili olduğu anlamına gelir? Herhangi bir kısıtlama yoksa ne olur? Yani, böyle bir soru olamaz mı? Hangi olasılık dağılımının maksimum entropisi vardır?
user76170

Yanıtlar:


25

Sezgisel olarak, maksimum entropi ile olasılık yoğunluğu işlevi, en az bilgi miktarına karşılık gelen değerine karşılık gelir , başka bir deyişle Üniforma dağılımı.{ x 1 , x 2 , . . , . x n }{x1,x2,..,.xn}{x1,x2,..,.xn}

Şimdi, daha resmi bir kanıt için aşağıdakileri göz önünde bulundurun:

A olasılık yoğunluk fonksiyonu negatif olmayan reel sayılar kümesidir 1. Entropi kadar ekleyin sürekli bir fonksiyonudur -tuples ve bu noktalar küçük bir alt kümesinde yatıyor , bu yüzden entropinin en üst düzeye çıkarıldığı bir tuple var . Bunun ve başka hiçbir yerde olmadığını göstermek istiyoruz .p 1 , . . . , P , n , n ( s 1 , . . . , S , n ) R, n- n ( 1 / n , . . . , 1 / n ){x1,x2,..,.xn}p1,...,pnn(p1,...,pn)R,nn(1/n,...,1/n)

Diyelim ki tamamen eşit değil, . (Açıkça ) Daha yüksek entropiye sahip yeni bir olasılık yoğunluğu bulacağız. Ardından, entropi bir tuple'da maksimize edildiğinden, bu entropi, tüm için ile tuple'da benzersiz bir şekilde maksimize edilir .p 1 < p 2 , n 1 , n , n s ı = 1 / n ipjp1<p2n1nnpben=1/nben

beri küçük pozitif için . Entropisi eksi ait entropi eşittir ε p 1 + ε < p 2 - ε { p 1 + ε , s 2 - ε , s 3 , . . . , S , n } { p 1 , s 2 , s 3 , . . . , p n }p1<p2εp1+ε<p2-ε{p1+ε,p2-ε,p3,...,pn}{p1,p2,p3,...,pn}

ε-p1günlüğü(1+ε

-p1günlük(p1+εp1)-εgünlük(p1+ε)-p2günlük(p2-εp2)+εgünlük(p2-ε)
tamamlamak için, bunun yeterince küçük için olumlu olduğunu göstermek istiyoruz . Yukarıdaki denklemi ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Küçük için hatırlatarak yukarıdaki denklem , beri yeterince küçük olduğunda pozitif .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x

-ε-εgünlükp1+ε+εgünlükp2+O(ε2)=εgünlük(p2/p1)+O(ε2)
εp1<p2

Daha az titiz bir kanıt aşağıdaki gibidir:

İlk önce aşağıdaki Lemmayı düşünün:

Let ve bir aralık ile sürekli olasılık yoğunluk fonksiyonları olabilir gerçek sayılar, ve ile . Her iki integral varsa . Ayrıca, eğer tüm için ise ve varsa eşitlik vardır .q ( x ) I p 0 q > 0 I - I p günlüğü p d x - I p günlüğü q d x p ( x ) = q ( x ) xp(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)x

Şimdi, , ile üzerinde olasılık yoğunluğu fonksiyonu olsun . İzin vermek tüm , ki entropisidir . Bu nedenle bizim Lemma, der , eğer sadece aynı ise ve eşitse.{ x 1 , . . . , x n } p i = p ( x i ) q i = 1 / n i - n i = 1 p i log q i = n i = 1 p i log n = log n q h ( p ) h ( q )p{x1,...,xn}pi=p(xi)qi=1/ni

i=1npilogqi=i=1npilogn=logn
qh(p)h(q)p

Ayrıca, wikipedia'da bu konuda kısa bir tartışma var: wiki


11
Temel (Matematiksiz) bir kanıt sunma çabasına hayranım. AM (GM = e dikkat ederek , ağırlıklı bir AM-GM eşitsizliği üzerinden sıkı bir tek satırlık gösteri , bütün eşitse, eşitlik tutma ile QED. exp(H)(1pi)pipi1pi=n1/pi
whuber

Ben anlamıyorum eşit olabilir . Σgünlükngünlükn
user1603472

4
@ kullanici1603472, demek istediginiz ? Bunun nedeniΣben=1npbengünlükn=günlüknΣben=1npbengünlükn=günlüknΣben=1npben=günlüknx1
HBeel

@Roland ' bağlı olmadığından toplamın dışına çıkardım . Sonra toplamı eşittir, çünkü , olasılık kütle fonksiyonunun yoğunluklarıdır. günlüknben1p1,...,pn
HBeel

Daha fazla ayrıntıyla aynı açıklama burada bulunabilir: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland

14

Fizikte entropi ve bilgi teorisi ile ilgisi yoktur. Adından daha farklı oldukları söyleniyor, ancak aralarında açıkça bir bağlantı var. Entropi metriğinin amacı bilgi miktarını ölçmektir. Entropinin homojen dağılımdan kambur birine nasıl değiştiğini göstermek için buradaki grafiklerle olan cevabımı görün .

Entropinin homojen bir dağılım için en üst düzeye çıkarılmasının nedeni, böyle tasarlanmasıdır! Evet, bilgi eksikliği için bir önlem oluşturuyoruz, bu yüzden en düşük değeri en az bilgilendirici dağıtıma vermek istiyoruz.

Örnek. Sana sordum " Dostum, arabam nerede ?" Cevabınız "ABD'de Atlantik ve Pasifik Okyanusları arasında bir yerlerde". Bu tek tip dağılımın bir örneğidir. Arabam ABD'de herhangi bir yerde olabilir. Bu cevaptan fazla bilgi alamadım.

Ancak, “arabanızı bir saat önce Washington DC'den Route 66'da görmüştüm” demiştiyseniz - bu artık tek tip bir dağıtım değil. Otomobilin Los Angeles yakınlarındaki herhangi bir yerden DC'ye 60 mil uzaklıkta olması daha muhtemeldir. Burada açıkça daha fazla bilgi var.

Bu nedenle, önlemimiz ilk cevap için yüksek bir entropiye sahip olmalı ve ikinci cevap için bir daha düşük olmalıdır. Üniforma en az bilgilendirici dağıtım olmalı, temelde "Hiçbir fikrim yok" cevabı.


7

Matematiksel argüman içbükey fonksiyonlar için Jensen eşitsizliğine dayanmaktadır. Yani, eğer ve üzerindeki içbükey bir fonksiyon ise noktaları daki , o zaman: f(x)[bir,b]y1,...yn[bir,b]nf(y1+...ynn)f(y1)+...+f(yn)

Bunu içbükey işlevine uygulayın ve için Jensen eşitsizliği . Not, bunların toplamı olsun ne 1'dir, yani ayrı bir olasılık dağılımını tanımlamak olan , düzgün dağılım için eşitlik ile.f(x)=-xgünlük(x)yben=p(xben)p(xben)lOg(n)Σben=1n-p(xben)lOg(p(xben))


1
Aslında Jensen'ın eşitsizlik kanıtını kavramsal olarak AM-GM'den daha derin bir kanıt olarak buluyorum.
Casebash

4

Bir yandan, bilgi teorisini meydana getiren entropi ile kimyadaki entropi hesaplamaları arasında herhangi bir bağlantı var mı (termodinamik)?

Evet var! Sen işini görebilirsiniz Jaynes (örneğin çalışmaları takip ve diğerleri burada ve burada örneğin).

Fakat ana fikir, istatistik mekaniğinin (ve bilimdeki diğer alanların da) dünya hakkında yaptığımız çıkarımlar olarak görülebileceğidir .

Daha fazla okuma olarak, Ariel Caticha'nın bu konuyla ilgili kitabını tavsiye ederim .


1

Sezgisel bir açıklama:

Eğer rastgele değişkenin bir olayına daha fazla olasılık kütlesi koyarsak, bazılarını diğer olaylardan almak zorunda kalacağız. Biri daha az bilgi içeriğine ve daha fazla ağırlığa, diğerleri daha fazla bilgi içeriğine ve daha az ağırlığa sahip olacaktır. Bu nedenle, bilgi içeriği düşük olan içerik daha düşük olacağından beklenen bilgi içeriği olan entropi azalacaktır.

Aşırı bir durum olarak, bir olayın neredeyse bir olasılık elde edebileceğini düşünün, bu nedenle diğer olaylar neredeyse sıfır kombine bir olasılık olacak ve entropi çok düşük olacaktır.


0

Ana fikir: her kısmi türevini , hepsini sıfıra ayarlayın, doğrusal denklem sistemlerini çözün.pben

Sonlu sayıda alın burada bir örnek için . Göstermek .pbenben=1,...,nq=1-Σben=0n-1pben

'H=-Σben=0n-1pbengünlükpben-(1-q)günlükq'H*ln2=-Σben=0n-1pbenlnpben-(1-q)lnq
'Hpben=lnqpben=0
Sonra her için , yani, .q=pbenbenp1=p2=...=pn


Bunun "ana fikir" olduğunu belirttiğinize sevindim, çünkü bu sadece analizin bir parçası. Diğer kısmı - sezgisel olmayabilir ve aslında biraz daha zor olabilir - entropinin davranışını inceleyerek, bir veya daha fazlası sıfıra , bunun küresel bir minimum olduğunu doğrulamaktır . pben
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.