Ampirik entropi nedir?


19

Birlikte tipik kümelerin tanımında ("Bilgi Teorisinin Unsurları", ch. 7.6, s. 195),

olarakampirik entropibir bölgesininNile tanıyan sekansp(xn)=Π n i = 1 p(xi). Bu terminolojiye daha önce hiç rastlamadım. Kitabın dizinine göre hiçbir yerde açıkça tanımlanmamıştır.

1nlogp(xn)
np(xn)=i=1np(xi)

Benim sorum temelde: Neden ampirik entropi olduğunu burada p ( x )xp^(x)log(p^(x))p^(x) olan ampirik dağılım?

Bu iki formül arasındaki en ilginç farklar ve benzerlikler nelerdir? (paylaştıkları / paylaşmadıkları özellikler açısından).


İki ifade cebirsel olarak eşit değil mi?
whuber

1
@whuber: Hayır, onlar farklı miktarlarda, farklı amaçlarla, inanıyorum. İlki, bir a priori olduğu varsayılan gerçek ölçü kullanır . İkincisi değil. p
kardinal

3
Birincisi zamanla entropi birikimi ve sistemin gerçek entropisi ile nasıl karşılaştırıldığı ile ilgilidir. SLLN ve CLT, birine nasıl davrandığı hakkında çok şey anlatır. İkincisi, entropinin verilerden tahmin edilmesiyle ilgilidir ve özelliklerinden bazıları, aynı zamanda bahsedilen iki araçla da elde edilebilir. Ancak, birincisi tarafsız iken, ikincisi altında değildir . Yararlı olursa bazı detayları doldurabilirim. p
kardinal

1
@cardinal: Eğer cevap olarak yukarıdaki yorum sağlamak istiyorsanız (belki de SLLN ve CLT ne anlatmak - Bunları bilmiyorum?) Ben upvote memnuniyetle ediyorum ...
blubb

Tamam, daha sonra yayınlamaya çalışacağım. Bu arada, SLLN = "Büyük sayıların güçlü kanunu" ve CLT = "Merkezi limit teoremi". Bunlar muhtemelen tekrar karşılaşacağınız oldukça standart kısaltmalardır. Şerefe. :)
kardinal

Yanıtlar:


16

Veri ise , olduğu, bir N bir örnek uzay gelen tanıyan sekans X , deneysel noktası olasılıklar vardır p ( x ) = 1xn=x1xnnXxX için1δx(xi). Buradaδx(xi),xi=xise sıfır ve aksi halde sıfırdır. Kendisine, p (x)nispi frekansıxgözlenen sırayla. Entropiampirik noktası olasılıkları ile Belirli bir olasılık dağılımı ait H( p )=-Σ

p^(x)=1n|{ixi=x}|=1ni=1nδx(xi)
xXδx(xi)xi=xp^(x)x
'H(p^)=-ΣxXp^(x)günlükp^(x)=-ΣxX1nΣben=1nδx(xben)günlükp^(x)=-1nΣben=1ngünlükp^(xben).
ΣxXδx(xben)günlükp^(x)=günlükp^(xben).
'H(p^)=-1ngünlükp^(xn)
p^(xn)=Πben=1np^(xben)ve sorudaki terminolojiyi kullanarak bu, ampirik olasılık dağılımının ampirik entropisidir . Bir yorumda @cardinal tarafından belirtildiği gibi,-1ngünlükp(xn) nokta olasılıkları ile verilen olasılık dağılımının ampirik entropisidir p.

3
(+1) Bu, Cover ve Thomas'ın entropinin "garip kendini referans karakteri" olarak adlandırdığı şeyin güzel bir örneğini sunar. Ancak, cevabın aslında OP'nin belirgin endişelerini (doğrudan) ele aldığından emin değilim. :)
kardinal

@cardinal, biliyorum, ve cevap bu özel noktayı vurgulamak için sadece uzun bir yorumdu. Puanlarınızı tekrarlamak istemedim.
NRH

1
Yorumlarımda veya başkalarının yanıtlarında genişleme dahil olmak üzere kendi yanıtınızı göndermekten çekinmeyin veya tereddüt etmemelisiniz. Yanıtları gönderme konusunda özellikle yavaş ve kötüyüm ve siz veya başkaları daha önce kısaca yorumladığım şeylerin yönlerini içeren cevaplar yayınlarsanız asla rahatsız olmaz. Aslında tam tersine. Şerefe.
kardinal

7

Entropi olasılık dağılımları için tanımlanmıştır. Bir veriye sahip değilsiniz, sadece verileriniz varsa ve olasılık dağılımının naif bir tahmincisini taktığınızda ampirik entropi elde edersiniz. Bu, başka bir cevapta gösterildiği gibi ayrık (multinomial) dağılımlar için en kolay olanıdır, ancak binning vb. Yoluyla diğer dağıtımlar için de yapılabilir.

Ampirik entropi ile ilgili bir sorun, küçük numuneler için önyargılı olmasıdır. Olasılık dağılımının naif tahmini, örnekleme gürültüsü nedeniyle fazladan değişkenlik gösterir. Tabii ki, daha iyi bir tahminci, örneğin, multinomiyal parametreler için uygun bir öncü kullanabilir, ancak gerçekten tarafsız olmasını sağlamak kolay değildir.

Yukarıda belirtilenler koşullu dağılımlar için de geçerlidir. Ayrıca, her şey binning (veya çekirdekleşme) ile ilgilidir, bu yüzden aslında bir çeşit diferansiyel entropiye sahipsiniz.


3
Burada ampirik entropi olarak bahsettiğimiz şeye dikkat etmeliyiz . Eklenti tahmin edicisinin tüm örnek boyutları için her zaman düşük eğilimli olduğunu unutmayın, ancak örnek boyutu arttıkça önyargı azalacaktır. Sadece değil zor entropi için yansız tahminler almak için değil, imkansız genel durumda. Son yıllarda, özellikle sinirbilim literatüründe, bu alanda oldukça yoğun bir araştırma yapılmıştır. Aslında birçok olumsuz sonuç var.
kardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.