Bu gerçekten benim alanım değil, yani bazı musings:
Sürpriz kavramı ile başlayacağım . Şaşırmanın anlamı nedir? Genellikle, olması beklenmeyen bir şey olduğu anlamına gelir. Öyleyse, onu olasılıklı bir kavram olarak şaşırtın ve bunun gibi açıklanabilir (IJ Good bu konuda yazmıştır). Ayrıca bakınız Wikipedia ve Bayesian Sürprizi .
Belirli bir evet / hayır durumu örneğini alın, bir şey olabilir ya da olmayabilir. Olasılık p . P = 0.9 ve gerçekleşirse, gerçekten şaşırmadığınızı söyleyin. Eğer p = 0.05 ve anı, sen biraz şaşırırlar. Ve eğer p = 0.0000001 ve olursa, gerçekten şaşırırsınız. Bu nedenle, "gözlenen sonuçtaki sürpriz değer" in doğal bir ölçüsü, olanın olasılığının bazı (anti) monoton işlevidir. Olanların olasılığının logaritmasını almak doğal görünüyor (ve iyi çalışıyor ...) ve sonra pozitif bir sayı elde etmek için eksi işaretini atıyoruz. Ayrıca, logaritmayı alarak, sürprizin sırasına odaklanıyoruz ve pratikte, olasılıklar genellikle sadece sırayla, az çok sırayla bilinir .
Böylece,
Sürpriz ( A ) = - logp ( A )
'nın bir gözlenen sonuç olduğu, p ( A ) olasılık olduğunu belirledik .
Şimdi beklenen sürprizin ne olduğunu sorabiliriz . Let X ihtimali olan bir Bernoulli rastgele değişken p . İki olası sonucu 0 ve 1'dir. İlgili sürpriz değerleri
Sürpriz ( 0 )Surprise(1)=−log(1−p)=−logp
böyleceXgözlemlerken sürpriz, beklenti ile rasgele bir değişkendir
p⋅−logp+(1−p)⋅−log(1−p)
ve bu --- sürpriz! ---Xentropisi! Yani entropininsürprizolmasıbekleniyor!
Şimdi, bu soru maksimum entropi ile ilgili . Neden birileri maksimum bir entropi dağılımı kullanmak istesin ki? Öyle olmalı, çünkü en fazla şaşırtmak istiyorlar! Neden kimse bunu istesin ki?
Buna bakmanın bir yolu şudur: Bir şey öğrenmek istersiniz ve bu amaç için bazı öğrenme deneyimleri (veya deneyleri ...) kurarsınız. Bu konuyla ilgili her şeyi zaten biliyorsan, her zaman mükemmel bir şekilde tahmin edebiliyorsun, bu yüzden hiç şaşırmadım. O zaman asla yeni bir deneyim edinemezsiniz, bu yüzden yeni bir şey öğrenmeyin (ama zaten her şeyi biliyorsunuz --- öğrenecek bir şey yok, o yüzden sorun değil). Kafanızın karıştığı daha tipik bir durumda, mükemmel bir şekilde tahmin edemiyorum, bir öğrenme fırsatı var! Bu, "olası öğrenme miktarını" beklenen sürpriz , yani entropi ile ölçebileceğimiz fikrine yol açar . Dolayısıyla, entropiyi en üst düzeye çıkarmak, öğrenme fırsatını en üst düzeye çıkarmaktan başka bir şey değildir. Bu, deneyler ve bu gibi şeyleri tasarlamada faydalı olabilecek faydalı bir konsepte benziyor.
Şiirsel bir örnek iyi bilinmektedir
Wenn einer eine reise macht, dann kann er erzählen oldu ...
Pratik bir örnek: Çevrimiçi testler için bir sistem tasarlamak istiyorsunuz (çevrimiçi, herkes aynı soruları almaz, önceki cevaplara bağlı olarak sorular dinamik olarak seçilir, bu nedenle her kişi için bir şekilde optimize edilmiştir).
Çok zor sorular yaparsanız, asla uzmanlaşmazlarsa, hiçbir şey öğrenemezsiniz. Bu, zorluk seviyesini düşürmeniz gerektiğini gösterir. Optimal zorluk seviyesi nedir, yani öğrenme oranını maksimize eden zorluk seviyesi? Doğru cevap olasılığının p olmasını sağlayın . Bernoulli entropisini maksimize eden p değerini istiyoruz . Ancak bu p=0.5 . Bu nedenle (bu kişiden) doğru bir cevap alma olasılığının 0.5 olduğu soruları belirtmeyi amaçlıyorsunuz.
Sonra sürekli rastgele değişken X . X gözlemleyerek nasıl şaşırırız ? Belirli bir sonucun olasılığı {X=x} sıfırdır, −logp tanımı işe yaramaz. Fakat x gibi bir şeyi gözlemleme olasılığı küçükse, yani f(x) yoğunluk işlevi değeri küçükse ( f sürekli olduğunu varsayarsak ) şaşırırız . Bu Surprise ( x ) = - log f ( x ) tanımına götürür
Surprise(x)=−logf(x)
Bu tanım sayesinde, gözlemleyerek beklenen sürpriz X olan
E{−logf(X)}=−∫f(x)logf(x)dx
olduğu, gözlemleyerek beklenen sürprizX ayırıcı entropi olanX . Beklenen mantıksallık olarak da görülebilir.
Ama bu gerçekten ilk olay, dava ile aynı değil. Bunu da gör, bir örnek. Rastgele değişken X bir taş atma uzunluğunu temsil etmesine izin verin (spor müsabakasında). Bu uzunluğu ölçmek için bir uzunluk birimi seçmemiz gerekir, çünkü olasılık için olduğu gibi, uzunluk için gerçek bir ölçek yoktur. Metre cinsinden mm veya km cinsinden veya daha genel olarak ölçüm yapabiliriz. Fakat bizim sürpriz tanımımız, dolayısıyla beklenen sürpriz, seçilen birime bağlıdır, bu nedenle değişmezlik yoktur. Bu nedenle, diferansiyel entropinin değerleri, Shannon entropisinin olduğu gibi doğrudan karşılaştırılamaz. Biri bu sorunu hatırlarsa yine de faydalı olabilir.