Logaritmanın Shannon'un entropisindeki rolü nedir?

72

Shannon'un entropisi , her sonucun olasılıklarının toplamının, her sonuç için olasılıkların logaritması ile çarpımının negatifidir. Logaritma bu denklemde hangi amaca hizmet eder?

Sezgisel veya görsel bir cevap (derinden matematiksel bir cevabın aksine) bonus puan verilecektir!

entropy intuition sequence-analysis

— histelheim
kaynak

11

Siz (veya diğer okuyucular) şunların tadını çıkarabilirsiniz: A. Renyi (1961), Entropi ve Bilginin Ölçülmesi , Proc. Dördüncü Berkeley Sempozyumu Matematiksel İstatistik ve Olasılık Sempozyumu , cilt no. 1, 547-561.

— kardinal

Dayanarak tepkiden , ben ne demek olduğunu varsayalım neden Shannon, sağ onun formülünde logaritmasını kullanılan?

— Ooker,

@Ooker: Bunu ifade etmenin bir yolu bu. “Neden” koydu? O işlev veya rol "Ne" var olan 'o başarıyor? 'Ne' o yararlıdır Nasıl Bana göre bunların hepsi aynı mahallede vardır ... "?'?

— histelheim

Buradaki cevaba bakınız: stats.stackexchange.com/questions/66186/…

— kjetil b halvorsen

Cevabımı görün, bir kütüğün anlamının yalnızca Shannon entropisinin istatistiksel mekanikteki kökenlerini inceleyerek gerçekten anlaşılabileceğini düşünüyorum

— Aksakal

51

Shannon entropisi, bir dizi ilişkiyi tatmin eden bir niceliktir.

Kısacası, logaritma onu sistem büyüklüğü ile doğrusal olarak büyümesini ve "benzer bilgi" olarak göstermesini sağlamaktır.

İlk bir madeni para savurma entropi anlamına gelir $n$ kere olup $n$ kere bir madeni para savurma entropi:

- Σ_{ben = 1}^{2^{n}} \frac{1}{2^{n}} kütük (\frac{1}{2^{n}}) = - Σ_{ben = 1}^{2^{n}} \frac{1}{2^{n}} n kütük (\frac{1}{2}) = n (- Σ_{ben = 1}^{2} \frac{1}{2} kütük (\frac{1}{2})) = n .

$- \sum_{i=1}^{2^n} \frac{1}{2^n} \log\left(\tfrac{1}{2^n}\right) = - \sum_{i=1}^{2^n} \frac{1}{2^n} n \log\left(\tfrac{1}{2}\right) = n \left( - \sum_{i=1}^{2} \frac{1}{2} \log\left(\tfrac{1}{2}\right) \right) = n.$

Ya da sadece iki farklı madeni para basarken nasıl çalıştığını görmek için (belki de haksız - ilk para için $p_1$ ve $p_2$ kuyruklu kafalar , ikinci için $q_1$ ve $q_2$ )

- Σ_{ben = 1}^{2} Σ_{j = 1}^{2} p_{ben} q_{j} kütük (p_{ben} q_{j}) = - Σ_{ben = 1}^{2} Σ_{j = 1}^{2} p_{ben} q_{j} (kütük (p_{ben}) + kütük (q_{j}))

$-\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i q_j) = -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \left( \log(p_i) + \log(q_j) \right)$

= - Σ_{ben = 1}^{2} Σ_{j = 1}^{2} p_{ben} q_{j} kütük (p_{ben}) - Σ_{ben = 1}^{2} Σ_{j = 1}^{2} p_{ben} q_{j} kütük (q_{j}) = - Σ_{ben = 1}^{2} p_{ben} kütük (p_{ben}) - Σ_{j = 1}^{2} q_{j} kütük (q_{j})

$= -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(p_i) -\sum_{i=1}^2 \sum_{j=1}^2 p_i q_j \log(q_j) = -\sum_{i=1}^2 p_i \log(p_i) - \sum_{j=1}^2 q_j \log(q_j)$ yanilogaritmaözellikleri(ürünün logaritması logaritma toplamıdır) çok önemlidir.

Ama aynı zamanda Rényi entropi (bir gerçek sayı tarafından parametrik entropi bu özelliğine sahiptir $\alpha$ için Shannon entropi olur $\alpha \to 1$ ).

Ancak, burada ikinci özellik geliyor - Shannon entropisi, bilgilerle ilgili olduğu gibi özel. Sezgisel bir his elde etmek için

'H = \underset{ben}{Σ} p_{ben} kütük (\frac{1}{p_{ben}})

$H = \sum_i p_i \log \left(\tfrac{1}{p_i} \right)$

\log (1 / p)

$\log(1/p)$ ortalaması olarak

.

arayabiliriz $\log(1/p)$ bilgileri. Neden? Çünkü eğer bütün olaylar $p$ olasılıkla gerçekleşirse , $1/p$ olayı olduğu anlamına gelir . Hangi olayın gerçekleştiğini anlamak için, $\log(1/p)$ bitleri kullanmamız gerekir (her bit ayrı ayrı söyleyebileceğimiz olay sayısını ikiye katlar).

Endişeli hissediyor olabilirsiniz "Tamam, eğer tüm olaylar aynı olasılıktaysa , bilgiyi ölçmek için $\log(1/p)$ kullanmak mantıklıdır . Fakat eğer öyle değilse, ortalama bilgi neden anlamlıdır?" - ve bu doğal bir endişedir.

Ancak anlaşılan bir şey var - Shannon'un kaynak kodlama teoremi , olasılıkları ile eşleştirilmemiş harfleri olan bir dize olduğunu söylüyor $\{p_i\}_i$ uzunluğunun $n$ daha kısa ikili dizeye (ortalama) sıkıştırılmış edilemez $n H$ . Ve gerçekte,dizeyi sıkıştırmak ve çok yaklaşmak içinHuffman kodlamasınıkullanabiliriz. $n H$

Ayrıca bakınız:

Güzel bir giriş Cosma Shalizi'nin Bilgi teorisi girişi.
Gerçekten entropi nedir? - MathOverflow
GZIP formatının dağıtılması

— Piotr Migdal
kaynak

11

Bu cevabın pek çok güzel detayı var - ama meslekten olmayan bir bakış açısına göre hala meseleyi etkiliyor - logaritmanın rolü nedir? Logaritma olmadan neden entropiyi hesaplayamıyoruz?

— histelheim,

6

@ histelheim Ne demek "logaritma olmadan"?

sadece bir tanesidir.

olmadan başka bir çeşitlilik ölçüsü istiyorsanız , çeşitlilik indekslerine bakın - örneğin , etkin sayıdaki seçimleri söyleyen Inverse Simpson endeksi

(ortalama bir ihtimalin üzerinde bir), Gini-Simpson endeksi

\sum_{i} p_{i}

$\sum_i p_i$

\log

$\log$

1 / \sum_{i} p_{i}^{2}

$1/\sum_i p_i^2$

1 - \sum_{i} p_{i}^{2}

$1-\sum_i p_i^2$ her zaman 0 ile bir arasındadır. Ve eğer Shannon entropisinin ince bilgi ile ilgili özelliklerini önemsemiyorsanız, bunlardan herhangi birini kullanabilirsiniz (yine de, düşük ve yüksek olasılıkları farklı şekilde ağırlarlar).

— Piotr Migdal

10

Son yorumunuz olan Histelheim: “logaritma olmadan entropi” neyi kastediyor olabilir? Bu, sorunuzu henüz net bir şekilde dile getirmediğinizi gösteriyor, çünkü akılda tutulmuş bazı "entropi" kavramına sahip olduğunuz anlaşılıyor. Lütfen bizi tahmin etmeye devam etmeyin - sorunuzu düzenleyin, böylece okuyucularınız aradığınız cevap türlerini sağlayabilir.

— whuber

1

@ Piotr Migdal - "logaritma, sistem büyüklüğü ile doğrusal olarak büyümesini sağlamak ve" bilgi gibi davranmak "şeklinde yazıyorsunuz. - Bu, logaritmanın rolünü anlamam için çok önemli görünüyor, ancak ne anlama geldiği konusunda net değilim.

— histelheim,

1

@ Piotr Migdal - ayrıca, "Günlük (1 / p) bilgilerini arayabiliriz. Neden?" Bana mantıklı geliyor. Logaritmanın temelde bizi çeşitlilik endeksinden bilgi endeksine doğru kaydırması mı - olayları ayırmamız gereken bit sayısını ölçmemiz.

— histelheim,

25

Bu diğer cevaplarla aynı, ancak bence onu açıklamanın en iyi yolu, Shannon'ın orijinal makalesinde neler söylediğini görmektir.

Logaritmik ölçü çeşitli nedenlerden dolayı daha uygundur:

Pratik olarak daha kullanışlıdır. Zaman, bant genişliği, röle sayısı gibi mühendislik öneme sahip parametreler, olasılık sayısının logaritmasıyla doğrusal olarak değişme eğilimindedir. Örneğin, bir gruba bir röle eklemek, rölelerin muhtemel durum sayısını iki katına çıkarır. Bu sayının baz 2 logaritmasını 1 ekler. Zamanı iki katına çıkarmak, olası mesajların sayısını kareler veya logaritmayı, vb. İkiye katlar.

Uygun önlem olarak sezgisel hisimize daha yakındır. Bu, (1) ile yakından ilgilidir, çünkü varlıkları ortak standartlarla doğrusal karşılaştırma yaparak sezgisel olarak ölçeriz. Örneğin, iki delikli kartın bilgi depolamak için iki katı kapasiteye sahip olması ve bilgi aktarımı için iki katı iki kanalın olması gerekir.

Matematiksel olarak daha uygundur. Sınırlama işlemlerinin birçoğu logaritma açısından basittir ancak olasılıkların sayısı bakımından sakar bir şekilde yeniden yapılanma gerektirecektir

Kaynak: Shannon, Bir Matematiksel İletişim Kuramı (1948) [ pdf ].

Shannon entropisinin, istatistiki mekaniğin Gibbs entropisi ile çakıştığını ve kütüğün Gibbs entropisinde neden oluştuğunun bir açıklaması olduğunu unutmayın. İstatistiksel mekanik olarak, entropi bir ölçümü mümkün durumları sayısı olması gerekiyordu bir sistem bulunabilir ki burada. Nedeni daha iyidir çünkü genellikle tartışmaların çok hızlı büyüyen fonksiyonudur ve böylece yararlı bir Taylor genişlemesi ile yaklaşık edilemez, oysa olabilir. (Bunun kütüğü almak için orijinal bir motivasyon olup olmadığını bilmiyorum, ancak birçok giriş fizik kitabında bu şekilde açıklanmıştır.) $\Omega$ $\log \Omega$ $\Omega$ $\Omega$ $\log \Omega$

— Flounderer
kaynak

Bu cevap en odaklı ve bilgilendirici gibi görünüyor.

— parlak yıldız

1

Bu, logun entropi hesaplamasında görünmesinin nedeni değildir. Bu yüzden rapor edilen bilgiler böyle rapor edilir. Alternatif bir miktar var: bilgileri kütük olmadan raporlayan "şaşkınlık". Makalesinin bu bölümünde, Shannon bit / nats / hartleys lehine ve şaşkınlığa karşı tartışıyor.

— Neil G,

15

Buna bakmanın başka bir yolu algoritmik açıdan. sayısını tahmin edeceğinizi , sahip olduğunuz tek bilginin bu numaranın aralığında olduğunu hayal edin . Bu durumda, sayıyı tahmin etmek için en uygun algoritma , sırasına göre bulabilen basit bir İkili arama algoritmasıdır . Bu formül sezgisel olarak, ne olduğunu bulmak için kaç soru sormanız gerektiğini söylüyor . Örneğin, , bilinmeyen bulmak için en fazla 3 soru sormanız gerekir. $x$ $1 \leq x \leq N$ $x$ $O(\log_2N)$ $x$ $N=8$ $x$ .

Eğer beyan olasılıklı açısından bakıldığında, aralığında herhangi bir değeri olduğu eşit olasılıkla olarak , demek için . Claude Shannon, bir sonucun bilgi içeriğinin şöyle tanımlandığını güzel bir şekilde gösterdi : $x$ $1 \leq x \leq N$ $p(x) = 1/N$ $1 \leq x \leq N$ $x$

h (x) = \log_{2} \frac{1}{p (x)}

$\begin{equation} h(x) = \log_2 \frac{1}{p(x)} \end{equation}$

Logaritmadaki temel 2'nin sebebi, burada bilgiyi bit cinsinden ölçmemizdir . Ayrıca bilgileriniz önlemi yapar doğal logaritma varsayabiliriz NAT'lar . Bir örnek olarak, OUTCOM bilgi içeriği olan . Bu değer, ikili arama algoritmasındaki (veya algoritmadaki IF ifadelerinin sayısı) adım sayısına tam olarak eşittir. Bu nedenle, bulmanız gereken soru sayısı eşittir , tam olarak sonucunun bilgi içeriğidir . $x=4$ $h(4) = 3$ $x$ $4$ $x=4$

Herhangi bir olası sonuç için ikili arama algoritmasının performansını da analiz edebiliriz. Bunu yapmanın bir yolu , herhangi bir değeri için sorulması beklenen soru sayısının ne olduğunu bulmaktır . Yukarıda bahsettiğim gibi , değerini tahmin etmek için gerekli soru sayısının . Bu nedenle, herhangi bir için beklenen soru sayısı tanım gereği: $x$ $x$ $h(x)$ $x$

⟨ h (x) ⟩ = \sum_{1 \leq x \leq N} p (x) h (x)

$\begin{equation} \langle h(x) \rangle = \sum_{1 \leq x \leq N} p(x) h(x) \end{equation}$

Soruları beklenen sayısı olarak sadece aynı entropi bir topluluk içinde kısa veya entropi. Bu nedenle, entropisinin , ikili arama algoritmasının hesap karmaşıklığı olan bir sonucu tahmin etmek için sorulması gereken soruların beklenen (veya ortalama) sayısını ölçtüğü sonucuna varabiliriz . $\langle h(x) \rangle$ $H(X)$ $H(X)$

— Omidi
kaynak

1

+ Bu benim bilgi teorisi uygulamalarımdan biridir - algoritma analizi. Eğer bir dizini indekslediğiniz gibi,> 2 sonucu olan karar noktalarınız varsa, karma kodlamanın ve O (n) sıralamalarının arkasındaki prensip budur.

— Mike Dunlavey

Bu argüman ayrık entropi için iyidir, ancak sürekli entropiye genelleme yapmaz.

— Neil G,

12

İşte manşet dışı bir açıklama. Aynı büyüklükteki 2 kitabın 1 kitaptan iki kat daha fazla bilgiye sahip olduğunu söyleyebilirsiniz, değil mi? (Bir kitabın bir bit dizisi olduğu düşünülürse) Peki, kesin bir sonucun P olasılığı varsa, onun bilgi içeriğinin 1 / P yazmanız gereken bit sayısı ile ilgili olduğunu söyleyebilirsiniz. (örneğin, P = 1/256 ise, bu 8 bittir.) Entropi, tüm sonuçlarda, bu bilgi bit uzunluğunun yalnızca ortalamasıdır.

— Mike Dunlavey
kaynak

5

Amacı, Shannon Entropi görünen yani bir tek entropi fonksiyonu, özellikleri temel set karşılayan fonksiyonu barındırmaya tutulur. $\log(p_i)$ $\log(p_i)$ $H(p_1, \ldots ,p_N)$

Shannon, bu sonucun iyice ele alınarak ve yaygın olarak kabul edilen matematiksel bir kanıtını sunmuştur. Entropi denklemindeki logaritmanın amacı ve önemi bu nedenle varsayımlar ve kanıtların içinde yer alır.

Bu anlaşılmasını kolaylaştırmaz, ama sonuçta logaritmanın ortaya çıkmasının nedenidir.

Başka bir yerde listelenenlere ek olarak aşağıdaki referansları yararlı buldum:

Olasılık Teorisi: ET Jaynes'in Bilim Mantığı . Jaynes, sıfırdan birçok sonuç alan birkaç yazardan biri; Bölüm 11'e bakınız.
Bilgi Kuramı, Çıkarım ve Öğrenme Algoritmaları , David MacKay. Shannon'un kaynak kodlama teoreminin derinlemesine bir analizini içerir; Bölüm 4'e bakınız.

— user119961
kaynak

4

Özet:

Çünkü henüz görmediğiniz bir verideki tüm belirsizlikleri tam olarak çözmek için cevaplamanız gereken ortalama toplam mükemmel soru sayısını temsil eder . muhtemel cevapları olan mükemmel bir soru , cevaplandığında, olasılıkların alanını azaltacağı sorusudur. $n$ $n$ kere .

Örnek:

Diyelim ki yüzlü bir zar atmıştım ve sonucunu tahmin edecektiniz. Olasılıkların alanı . Bana bu ikilik "sonuç nedir?" Gibi sorular sorabilirsin. (Cevap evet ya da hayır, yani ) ve cevabım "hayır" olabilir. O zaman sadece olanakları ile uzayın uzayı $6$ $6$ $1$ $n=2$ $1$ . Yani bu soru sormak için iyi bir soru değil.

Alternatif olarak, "Bu daha büyüktür böyle bu üstün ikili soru olarak iyi sorular, sorabilirsiniz ?" Ve cevabım olurdu "yeppies!" - o zaman patlama, olasılıkların alanı yarı yarıya azalır! Yani sadece orada aday (başlangıçta 6 üzerinden gösterilmiştir). Cehennem evet dostum. $3.5$ $6/2=3$

Şimdi, olasılıkların yalnızca olasılık olduğu durumda olan ve hangi tanımla - belirsizlik bırakmadığı (o zaman cevabı biliyorsunuz) olan duruma ulaşana kadar bu iyi soruların tekrarını tekrar tekrar sorduğunuzu varsayalım . $1$

Bunu yapalım:

olasılık. S: Sonuç mi? A: Evet. $6$ $> 3.5$
olasılık bıraktı. S: sonuç mi? A: Evet. $6/2=3$ $\ge 5$
olasılık bıraktı. S: sonuç mı? A: Evet. $6/2/2=1.5$ $= 6$

Sonucun numara olması gerektiği sonucuna varıyorsunuz ve sadece ikili soru sormanız gerekiyordu . Yani $6$ $3$ $ceil(\log_2(6)) = ceil(2.58) = 3$

Şimdi, açıkçası, ikili soruların sayısı her zaman doğal bir sayıdır. Peki neden Shannon entropi kullanmaz fonksiyonunu? Çünkü aslında sorulması gereken ortalama iyi soru sayısını ortaya koyuyor. $ceil$

Bu deneyi tekrarlarsanız (bir Python kodu yazarak), ortalama olarak mükemmel ikili soru sormanız gerekeceğini fark edeceksiniz . $2.58$

Elbette, eğer ikili sorular sorarsanız, kütüğün temelini buna ayarlarsınız. Yani burada Sorularımız ikili çünkü. Beklediğiniz soruları sorarsanız birçok olası cevaplar, size tabanını ayarlayacaktır yerine yani . $\log_2(...)$ $n$ $n$ $2$ $\log_n(...)$

Simülasyon:

import random

total_questions = 0
TOTAL_ROUNDS = 10000

for i in range(0,TOTAL_ROUNDS):
    outcome = random.randrange(1,7)
    total_questions += 1
    if outcome > 3.5:
        total_questions += 1
        if outcome >= 5:
            total_questions += 1
            if outcome == 5:
                pass
            else:
                # must be 6! no need to ask
                pass
        else:
            # must be 4! no need to ask
            pass
    else:
        total_questions += 1
        if outcome >= 2:
            total_questions += 1
            if outcome == 2:
                pass
            else:
                # must be 3! no need to ask
                pass
        else:
            # must be 1! no need to ask
            pass


print 'total questions: ' + str(total_questions)
print 'average questions per outcome: ' + str(total_questions/float(TOTAL_ROUNDS))

Sonuçlar:

total questions: 26634
average questions per outcome: 2.6634

Holy molly Dude . $2.6634 \ne \log_2(6) \ne 2.58$

Sorun nedir? Bu var hemen hemen yakın ama umduğu gibi değil gerçekten yakın. Python'un PRNG'si yavaş bir şaka demeye mi çalışıyor? Yoksa Shannon yanılıyor mu? Yoksa bu yasak mı - anlayışım yanlış mı? Her iki şekilde de YARDIM. SOS zaten ahbap.

— mağara adamı
kaynak

2

6^{5} = 7776

$6^5=7776$

⌈ \log_{2} (6^{5}) ⌉ = 13

$\lceil\log_2(6^5)\rceil=13$

13 / 5 = 2.6

$13/5=2.6$

190537

$190537$

492531

$492531$

492531 / 190537 \approx 2.584962500722

$492531/190537\approx 2.584962500722$

@ whuber kodumda yaptığım şey bu değil mi? 10000 ölüyü attığımda, tüm ölmek için istediğim toplam soru sayısını topladım. Daha sonra toplam / 10000 yaparım 2.66.

— mağara adamı

1

Hayır, bunu kodunda hiç yapmıyorsun! Aynı anda tüm zarların durumunu aynı anda almak için tasarlanmış bir dizi soru sormanız gerekir . Bu, bir kerede bir kişinin ölümü durumunu bulmak için gereken ortalama soru sayısı ile aynı şey değildir.

— whuber

3

$\Omega = \{\omega_1, \dotsc, \omega_n\}$ $p_1, \dotsc, p_n$ $H(p_1, \dotsc, p_n)$

$H$
$H$ $n$ $p_1 = \dots = p_n = \frac1n$
$H$ $\begin{aligned} H (\frac{1}{2}, \frac{1}{6}, \frac{1}{3}) & = H (\frac{1}{2}, \frac{1}{2}) + \frac{1}{2} H (\frac{1}{3}, \frac{2}{3}) . \end{aligned}$ $\begin{align} H\left(\frac12, \frac16, \frac13\right) &= H\left(\frac12, \frac12\right) + \frac12 H\left(\frac13, \frac23\right). \end{align}$

Shannon tek olduğunu kanıtlar. $H$

\begin{aligned} H (p_{1}, \dots, p_{n}) & = - \sum_{i = 1}^{n} p_{i} \log_{k} p_{i} \end{aligned}

$\begin{align} H(p_1, \dotsc, p_n) &= -\sum_{i=1}^np_i\log_kp_i \end{align}$

k > 1

$k>1$

k = 2

$k=2$

— Neil G
kaynak

3

Bu soru iki yıl önce ortaya atıldı ve çok sayıda müthiş cevaplar oldu, ancak kendime çok yardımcı olan benimkini eklemek istiyorum.

Soru

Logaritma bu denklemde hangi amaca hizmet eder?

Logaritma (genellikle 2 temellidir) Kraft'ın Eşitsizliğinden kaynaklanmaktadır .

$\sum_{i=1}^m 2^{-l_i} <= 1$

$l_i$ $L_x$ $P(x)$

$P(x) = 2^{-L(x)}$

Ve dolayısıyla $L_{(x)} = -logP(x)$ $P(x)$ $L_{(x)}$

$L_{(x)}$ $P(x)$ $-P(x)logP(x)$

Bir sezgisel illüstrasyon ve görsel (Kraft'ın Eşitsizliği için daha özel olarak ihtiyaca göre, fakat) cevabı bu yazıda ifade edildiği sürece Kod Ağacı ve Kraft'ın Eşitsizlik .

— Lerner Zhang
kaynak

1

Herhangi bir cevabın kabul edilmemesine dayanarak, aradığın şeyin Shannon'ın formülünde ilk başta logaritmayı kullanmasının sebebi olduğunu düşünüyorum. Başka bir deyişle, onun felsefesi.

_{Feragatname : Sadece bir haftalığına bu alana giriyorum, tıpkı sizin gibi bir soru olduğu için buraya geliyorum . Bu konuda daha fazla bilgiye sahipseniz, lütfen bana bildirin.}

Ulanowicz, Entropi'yi Artırma: Isı ölümü veya kalıcı uyumlar hakkında en önemli makalelerden birini okuduktan sonra bu sorum var ? . Bu paragraf, formülün neden (1-p) yerine -log (p) 'ye sahip olduğunu açıklar:

Entropinin biçimsel tanımını daha fazla açmadan önce, neden sadece varolmamanın en uygun ölçüsü olarak [–log (p)] yerine sadece (1 - p) seçilmediğini sormak haklı çıkacaktı. Cevap, elde edilen ürünün p (yani [p – p ^ 2]) p = 0.5 değerinin etrafında mükemmel bir şekilde simetrik olmasıdır. Böyle bir simetrik kombinasyona göre yapılan hesaplamalar sadece geri dönüşümlü bir evreni tanımlayabilecektir. Bununla birlikte Boltzmann ve Gibbs, geri dönüşü olmayan bir evreni ölçmeye çalışıyorlardı. Tek değişkenli dışbükey logaritmik işlevini seçerek, Boltzmann böylece varlığa bağlı olmamaya karşı bir önyargı verdi. Bir fark, örneğin, maksimum [–xlog {x}] = {1 / e} that 0.37, böylece belirsizlik ölçüsünün pi'nin düşük değerlerine doğru eğrildiği fark edilir.

Görünüşe göre Shannon sebepsiz yere logaritma seçti. Logaritmayı kullanması gerektiğini "kokladı". Newton neden F = m * a formülünde çarpma işlemini seçti?

O sırada entropi hakkında hiçbir fikri olmadığını unutmayın :

En büyük endişem buna ne diyecekti. 'Bilgi' demeyi düşündüm, ama kelime aşırı kullanıldı, ben de 'belirsizlik' demeye karar verdim. Bunu John von Neumann ile tartıştığımda daha iyi bir fikri vardı. Von Neumann bana iki nedenden ötürü “entropi demelisin” dedi. İlk olarak, belirsizlik işleviniz bu isim altındaki istatistiksel mekanikte kullanılmıştır, bu yüzden zaten bir ismi vardır. İkincisinde ve daha önemlisi, entropinin gerçekte ne olduğunu kimse bilmiyor, bu yüzden bir tartışmada daima avantaja sahip olacaksınız.

Yani benim cevabım: Bunun için hiçbir sebep yoktur. Bunu seçti çünkü büyülü bir şekilde çalıştı.

— ooker
kaynak

0

Entropi, bir sistemin içinde bulunabileceği durum sayısını ifade eden multinom katsayısının geometrik ortalamasının logaritması olarak tanımlanır:

\log \sqrt[N]{(\binom{N}{n_{1}, \dots, n_{k}})}

$\log \sqrt[N]{N \choose n_1,\ldots,n_k}$

Logaritmalar, Stirling'in faktöre yaklaşımını kullandıktan sonra formülde görünür ( bu açıklamaya bakınız ).

— Atamiri
kaynak

3

OP'nin logaritmanın tanımın bir parçası olduğunu bildiğine inanıyorum. Neden orada olduğunu soruyorlar.

— whuber

0

Tomruk, belirli doğal gereksinimleri karşılayan H fonksiyonunun türevinden gelir. Bkz. 3 sn. Bu kaynağın 2'si:

http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf

Aksiyomlar göz önüne alındığında, optimizasyonu gerçekleştirirseniz, içinde oturum açarak benzersiz (sabitlere kadar) bir işlev elde edersiniz.

Yukarıdaki cevapların tümü, günlüğü yorumlamaları dışında doğrudur, ancak kaynağını açıklama.

— Swapnil Bhatia
kaynak

0

Sanırım sorunuz, bu logaritmanın "anlamı" hakkında ve her bileşenin neden tanımın belirli gerekliliklerle tutarlılığını gösteren sadece formalizmden ziyade formülün genel anlamına katkıda bulunduğuyla ilgili.

Shannon entropisindeki fikir, bir mesajın FREKANSİNİ (yani bakarak değerlendirmektir. $p(x)$ $-log(p(x))$

$p(x)$
$-log(p(x))$

$p(x)$ $-log(p(x))$

Artık GENELLİLİK'in nihai entropi formülünü nasıl etkilediğini tartışacağım.

l o g_{2} (x) = n u m b e r_o f_b i t s_t o_e n c o d e_t h e_m e s s a g e s

$log_2(x) = number\_of\_bits\_to\_encode\_the\_messages$

Şimdi, oturup rahatlayın ve Shannon Entropy'nin numarayı ne kadar güzel yaptığını inceleyin: daha genel olan mesajların sonuç olarak daha FREKENT olduğu (makul) varsayımına dayanır.

Örneğin, ortalama ya da şiddetli ya da çok şiddetli bir yağmursa ya da yağmur yağdığını söyleyeceğim. Böylece, mesajların GENELLİĞİ kodunu, ne kadar SIK olduklarına bağlı olarak kodlamayı önerdi ...

l o g_{2} N = - l o g_{2} 1 / N = - l o g_{2} P

$log_2 N = -log_2 1/N = -log_2 P$

$N$ $x$ .

Denklem şu şekilde yorumlanabilir: nadir mesajlar daha uzun kodlamaya sahip olacak çünkü daha az genel oldukları için kodlanmaları için daha fazla bit'e ihtiyaçları var ve daha az bilgi verici. Bu nedenle, daha spesifik ve nadir mesajlara sahip olmak, entropiye birçok genel ve sık mesajdan çok daha fazla katkıda bulunacaktır.

$p(x)$ $-log(p(x))$ , sık sık mesajlar aynı zamanda, genel olarak, ve daha çok bilgi bu açıdan (yani daha kısa kodlama alt entropi anlamına gelir) olmasıdır.

En yüksek entropi, çok nadir ve spesifik mesajlara sahip bir sistemimiz olduğundadır. Sık ve genel mesajlarla en düşük entropi. Arada, hem nadir hem de genel mesajlara ya da sık ama özel mesajlara sahip olabilecek bir entropi eşdeğer sistemler yelpazesine sahibiz.

— Gabrer
kaynak

0

Size evrensel bir "sezgisel" cevap vermenin mümkün olduğunu sanmıyorum. Size fizikçiler gibi bazı insanlar için sezgisel olan bir cevap vereceğim. Logaritma, sistemin ortalama enerjisini elde etmek için var. İşte detaylar.

Shannon, " entropi " kelimesini kullandı çünkü konsepti istatistiksel mekanikten uyarladı . İstatistik mekaniğinde Boltzmann adında bir seminal dağılım var . İlginçtir ki, şimdi makine öğrenmesinde önemli bir dağılım !

Boltzmann dağılımı olarak yazılabilir.

P = e^{\frac{bir - E}{b}}

$P=e^{\frac{a-E} b}$

a, b

$a, b$

E

$E$

d V

$dV$

V

$V$

d V = d p d x

$dV=dpdx$

x, p

$x,p$

a, b

$a,b$

\int_{V} P d V = 1

$\int_VPdV=1$ . Ayrıca, ilginç bulabilirsiniz ki

b

$b$ sistemin sıcaklığına karşılık gelir.

Şimdi nasıl olduğuna dikkat et. $\ln P\sim E$ yani bir olasılık kütüğü, enerjiye doğrusaldır (orantılı). Şimdi, aşağıdaki ifadenin temel olarak sistemin enerjisinin beklenen bir değeri olduğunu görebilirsiniz:

S \equiv - \int_{V} P \ln P d V = < E >

$S\equiv -\int_VP\ln P dV=<E>$ Gibbs böyle yaptı.

Yani, Shannon bu şeyi aldı ve

η = - \underset{ben}{Σ} P_{ben} \ln P_{ben}

$\eta=-\sum_i P_i\ln P_i$ ve buna “entropi” diyoruz ve biz buna “Shannon entropy” diyoruz. Burada daha fazla enerji kavramı yok, ama belki bir devletin olasılığını önleyebilirsin

e^{- P_{i}}

$e^{-P_i}$ ve buna devletin enerjisi mi diyorsunuz?

Bu sizin için yeterince sezgisel mi? Bu benim için, ama ben geçmişte teorik bir fizikçiydim. Ayrıca, Boltzmann ve Clausius'un sıcaklık ve eserleri gibi daha eski termodinamik kavramlarla bağlantı kurarak daha derin bir sezgiye gidebilirsiniz .

— Aksakal
kaynak