Şaşkınlık nedir?


42

Görünmeyen verilerde log-ortalamalı ters olasılık anlamına gelen şaşkınlık terimi ile karşılaştım. Şaşkınlık konusundaki Wikipedia makalesi sezgisel bir anlam ifade etmiyor.

Bu karışıklık ölçüsü pLSA makalesinde kullanılmıştır .

Şaşkınlık ölçüsünün gerekliliği ve sezgisel anlamını açıklayabilen var mı?


PlSA için şaşkınlığı nasıl hesaplarım? I karekodlanır sahip sayısına sahip ve TEM algoritması tarafından p ( d ) ve p ( w | d ) hesaplanır. Xp(d)p(w|d)
Öğrenci

3
Nisbett, Larose, Witten, Torgo ve Shemueli'nin 5 veri madenciliği / makine öğrenmesi / tahmine dayalı analitik kitaplarının endekslerini kontrol ettim ve bu terimlerin hiçbirinde oluşmuyor.
Kafam karıştı

1
Şaşkınlık belirsizlik için başka bir süslü isim. Dışsal değerlendirmeye karşı içsel bir değerlendirme olarak düşünülebilir. Jan Jurafsky, buradaki dil modellemesine uygun örnekleri, youtube.com/watch?v=BAN3NB_SNHY
bicepjai

2
@ zbicyclist, Vahşi doğada örnekler arıyorsanız, NLP'de ve özellikle de dil modelleri gibi şeylerin değerlendirilmesi için özellikle yaygındır.
Matt Krause

Bazı alanlarda (örn. Ekonomi) insanlar eşdeğer sayılar hakkında konuşurlar; örneğin , H'nin doğal logaritmalara dayalı entropi olduğu , eşit sayıda ortak kategorilere eşdeğerdir. Bu nedenle, olasılık 0.5 verim entropi iki kategori her ln 2 ve üs geri 2 eşit sıklıkta kategori sayısı olarak alır. Eşit olmayan olasılıklar için eşdeğer sayılar genelde bir tamsayı değildir. exp(H)Hln2
Nick Cox

Yanıtlar:


21

Şaşkınlık hakkındaki Wikipedia makalesine baktınız . Kesikli bir dağılımın karışıklığını verir.

2xp(x)log2p(x)

hangi olarak da yazılabilir

exp(xp(x)loge1p(x))

yani olasılıkların tersinin ağırlıklı geometrik bir ortalaması olarak. Sürekli bir dağıtım için, toplam bir integral haline gelirdi.

Makale ayrıca adet test verisi kullanan bir model için kafa karışıklığını tahmin etmenin bir yolunu sunarN

2i=1N1Nlog2q(xi)

hangi da yazılabilir

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

veya çeşitli başka şekillerde ve bu "günlük ortalama ters olasılık" ın nereden geldiğini daha da netleştirmelidir.


E'nin 2'den ziyade üs olarak kullanıldığı durumlar arasında özel bir ayrım var mı?
Henry E

2
10alogax=blogbx

Ben de öyle düşündüm. Önceden gördüğüm tüm diğer formülasyonlar 2'yi kullanırken neden bir kod parçasının e şaşkınlığı hesaplamak için e kullandığını anlamaya çalışırken bu cevaba rastladım. kütük kaybı hesaplamasında baz olarak kullanır
Henry E

27

Bunu oldukça sezgisel buldum:

Neyi değerlendirdiğinizin, onu değerlendirdiğiniz verilerdeki şaşkınlık, size “bu şeyin bir x-taraflı kalıbın olacağı kadar doğru olduğunu” söyler.

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/


Bu ilginç bir makale; belki de o kadar derin değil ama iyi bir tanıtım okuması.
Monica Heddneck 25:16

1
Ayrıca bu makaleyi yararlı buldum, jamesmccaffrey.wordpress.com/2016/08/16/…
user2561747

11

Bunu da merak ettim. İlk açıklama fena değil, ama işte benim için değerim.


Her şeyden önce, şaşkınlığın doğru bir şeyi ne sıklıkta tahmin edeceğinizi karakterize etmekle ilgisi yoktur. Stokastik bir dizinin karmaşıklığını karakterize etmekle daha fazlası var.

2xp(x)log2p(x)

İlk önce kütüğü ve üsleri iptal edelim.

2xp(x)log2p(x)=1xp(x)p(x)

Bence şaşkınlığın entropiyi tanımlamak için kullandığınız tabanla değişmez olduğunu belirtmeye değer. Dolayısıyla bu anlamda, şaşkınlık, bir ölçüm olarak entropiden ziyade, sınırsızca daha eşsiz / daha az keyfidir.

Zar İlişkisi

11212×1212=2

N

1(1N1N)N=N

Bu yüzden şaşkınlık, adil bir kalıbın kenarlarının sayısını temsil eder, yuvarlandığında, sizin verilen olasılık dağılımınızla aynı entropiye sahip bir sekans üretir.

Devletlerin sayısı

NN+1NϵNN+1ϵNxpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

ϵ0

1xNpxpx

Böylece, kalıbın bir tarafını yuvarlanma olasılığını giderek düşürürken, şaşkınlık taraf yokmuş gibi görünmeye başlar.


3
Elbette bu sadece ~ 1.39 nats değerinde mi?
Matt Krause

xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}

5

XX

P(X=X)2H(X)=12H(X)=1perplexity

Açıklamak gerekirse, tek biçimli bir dağılımın şaşkınlığı sadece | X |, elemanların sayısıdır. Numunelerin eşit dağılımlı bir dağılımdan örneklerini veren değerleri tahmin etmeye çalışırsak, X, basitçe X'den kimliğin tahminlerini yaparak alacaktır, zamanın 1 / | X | = 1 / şaşkınlığı doğru olacaktır. Tekdüze dağılım, değerleri tahmin etmek en zor olduğu için, tahminlerimizin ne sıklıkta doğru olacağı konusunda 1 / şaşkınlığı daha düşük bir sınır / sezgisel yaklaşım olarak kullanabiliriz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.