Bayesian önceki ve posterior dağılımlarını anlamama yardım et

124

Bir grup öğrencide, solak 18 kişiden 2'si vardır. Öğrenimsiz olduğunu varsayarsak popülasyondaki solak öğrencilerin arka dağılımını bulun. Sonuçları özetle. Literatüre göre insanların% 5-20'si solaktır. Bu bilgileri öncekilerinizde dikkate alın ve yeni posterior hesaplayın.

Beta dağılımının burada kullanılması gerektiğini biliyorum . İlk olarak, $\alpha$ ve $\beta$ değerleri 1 olarak? Posterior malzemesinde bulduğum denklem

π (r | Y) \propto r^{(Y + - 1)} \times (1 - r)^{(N - Y + - 1)}

$\pi(r \vert Y ) \propto r^{(Y +−1)} \times (1 − r)^{(N−Y +−1)} \\$

$Y=2$ , $N=18$

Bunun nedeni nedir $r$ denklemde? ( $r$ solak kişilerin oranının gösteren). Bilinmiyor, peki bu denklemde nasıl olabilir? Bana öyle hesaplamak için saçma görünüyor $r$ verilen $Y$ ve kullanan $r$ veren denklemde $r$ . De, numune ile $r=2/18$ sonuç olarak $0,0019$ . Bundan $f$ çıkarmalı mıyım?

Bilinen ve verilen $R$ değerini veren denklem daha iyi çalıştı ve bana doğru ses getiren verdi . Denklem ve atanan değerinde . Önceden bilgiyi hesaba katmak için ve hangi değerleri vermeliyim ? $Y$ $N$ $0,15$ $E(r | X, N, α, β) = (α + X)/(α + β + N)$ $1$ $α$ $β$ $α$ $β$

Bazı ipuçları çok takdir edilecektir. Önceden ve arkaya yapılan dağıtımlarla ilgili genel bir konuşma da zarar vermezdi (ne olduklarını sadece belirsiz bir şekilde anladım ama sadece belirsiz). ileri matematik muhtemelen başımın üzerinden uçacak.

— şilin
kaynak

Bu soruya ve cevaba bir göz attın mı?

— David Robinson,

" Solak öğrencilerin arka dağılımını bul " ifadesi anlamsız. Rastgele değişkenler dağılımları ve "solak öğrencilere" var sana "niyetinde tahmin bir rv değil arka dağılımını bul oranı solak öğrenciler ". Bu tür ayrıntılara dikkat etmek değil, gerçekte neden bahsettiğiniz hakkında net olmak önemlidir.

— Glen_b

Aslında, sorunuzu okuduğunuzda, sorununuzun basitçe olasılık dağılımlarını anlamak kadar Bayes istatistiği olmadığı anlaşılıyor; bu her zaman bir dağıtım işlevinin (veya orada sahip olduğunuz bir olasılık işlevinin) argümanının bilinmeyen bir işlev (rastgele değişken) olduğu durumdur. Bu tamamen onların amacı.

— Glen_b

Yorumlar uzun tartışmalar için değildir; bu konuşma sohbete taşındı .

— gung

Yanıtlar:

233

Önce bir konjugatın ne olduğunu açıklayayım . Daha sonra, spesifik örneğinizi kullanarak Bayesian analizlerini açıklayacağım. Bayes istatistikleri şu adımları içerir:

Bir parametre hakkındaki öznel inançlarınızı içeren önceki dağıtımı tanımlayın (örnekte ilgilendiğiniz parametre, sol tarafların oranıdır). Birincisi "bilgisiz" veya "bilgilendirici" olabilir (ancak hiçbir bilgisi olmayan bir öncelik yoktur, burada tartışmaya bakınız ).
Veri toplamak.
Bir posterior dağılım elde etmek için önceki dağılımınızı Bayes teoremini kullanarak verilerle güncelleyin . Posterior dağılım, verileri gördükten sonra parametre hakkındaki güncellenmiş inançlarınızı temsil eden bir olasılık dağılımıdır.
Posterior dağılımını analiz eder ve özetler (ortalama, medyan, sd, quantiles, ...).

Tüm bayes istatistiklerinin temeli, Bayes teoremidir.

p o s t e r i o r \propto p r i o r \times l i k e l i h o o d

$\mathrm{posterior} \propto \mathrm{prior} \times \mathrm{likelihood}$

Senin durumunda, ihtimal binom. Ön ve arka dağılım aynı ailede ise , önceki ve arka konjugat dağılımları olarak adlandırılır . Beta dağılımı önceden bir konjugattır, çünkü posterior aynı zamanda bir beta dağılımıdır. Beta dağılımının binom olasılığının eşlenik ailesi olduğunu söylüyoruz. Konjugat analizleri uygundur ancak nadiren gerçek dünya problemlerinde ortaya çıkar. Çoğu durumda, posterior dağılımın sayısal olarak MCMC yoluyla bulunması gerekir (Stan, WinBUGS, OpenBUGS, JAGS, PyMC veya başka bir program kullanılarak).

Eğer önceki olasılık dağılımı 1 ile bütünleşmezse, daha önce uygunsuz olarak adlandırılır , 1 ile bütünleşirse buna uygun bir öncelik denir . Çoğu durumda, uygunsuz bir önceki Bayesian analizleri için büyük bir sorun teşkil etmez. Posterior dağılım olsa da uygun olmalıdır , yani posterior 1 ile bütünleşmelidir.

Bu kurallar, doğrudan Bayesian analiz prosedürünün niteliğinden kaynaklanmaktadır:

Öncelikle bilgilendirici değilse, posterior verilerle belirlenir (poster veriye dayalı)
Öncelik bilgilendirici ise, poster öncekilerin ve verilerin bir karışımıdır.
Ön bilgi ne kadar bilgilendirici olursa, inancınızı "değiştirmeniz" gerekir, böylece konuşursunuz çünkü arkadakiler önceki bilgilerden çok etkilenir.
Çok fazla veriye sahipseniz, veriler posterior dağılıma hükmedecektir (öncekileri ezeceklerdir)

Beta dağıtımı için bazı olası "bilgilendirici" ve "bilgi vermeyen" önceliklerin mükemmel bir incelemesi bu yazıda bulunabilir .

Önceki beta sürümünüzün burada solakların oranıdır. Önceki parametreleri ve belirtmek için , beta dağılımının ortalamasını ve varyansını bilmek yararlıdır (örneğin, önceden bir belirli ortalama ve varyansa sahip olmak istiyorsanız). Ortalama, . Bu nedenle, olduğunda, ortalama . Beta dağılımının varyansı . Şimdi, uygun olan şey ve düşünebilmenizdir $\mathrm{Beta}(\pi_{LH}| \alpha, \beta)$ $\pi_{LH}$ $\alpha$ $\beta$ $\bar{\pi}_{LH}=\alpha/(\alpha + \beta)$ $\alpha =\beta$ $0.5$ $\frac{\alpha\beta}{(\alpha + \beta)^{2}(\alpha + \beta + 1)}$ $\alpha$ $\beta$ daha önce gözlendiği gibi (sözde) veriler, yani solaklar ve sağa sola n büyüklüğünde (sözde) bir örnekten . dağıtım takımları (her değerindedir eşit muhtemel) ve iki insanlar gözlenen sahip eşdeğerdir bunlardan biri solak, diğeri sağ elini kullanıyor. $\alpha$ $\beta$ $n_{eq}=\alpha + \beta$ $\mathrm{Beta}(\pi_{LH} |\alpha=1, \beta=1)$ $\pi_{LH}$

Posterior beta dağılımı, basitçe olup , burada , numunenin büyüklüğüdür ve , numunedeki solakların sayısıdır. Bu yüzden nin arka ortalaması . Bu yüzden sadece eklemek posterior beta dağılımının parametrelerini bulmak için sol akrep-yelkovan ve hakkı akrep-yelkovan . Arka varyans $\mathrm{Beta}(z + \alpha, N - z +\beta)$ $N$ $z$ $\pi_{LH}$ $(z + \alpha)/(N + \alpha + \beta)$ $z$ $\alpha$ $N-z$ $\beta$ $\frac{(z+\alpha)(N-z+\beta)}{(N+\alpha+\beta)^{2}(N + \alpha + \beta + 1)}$ . Bilgilendirici bir önceliğin, posterior dağılımın daha küçük bir değişkenliğine yol açtığını unutmayın (aşağıdaki grafikler, noktayı güzel bir şekilde göstermektedir).

Sizin durumunuzda, ve ve öncekiniz biçimsiz olan üniformadır, yani . Posterior dağılımınız bu nedenle . Arka ortalama . İşte veri önceliğini, verinin olasılığını ve posterioru gösteren bir grafik. $z=2$ $N=18$ $\alpha = \beta = 1$ $Beta(3, 17)$ $\bar{\pi}_{LH}=3/(3+17)=0.15$

Öncelikle, verilerin olasılığı ve arka dağılımda bir üniforma ile

Önceden yaptığınız dağılımın bilgilendirici olmadığı için posterior dağılımınızın tamamen verilerden kaynaklandığını görüyorsunuz. Ayrıca, posterior dağılım için en yüksek yoğunluk aralığı (HDI) da çizilmiştir. Posterior dağılımınızı 2B havzaya koyduğunuzu ve dağılımın% 95'i su hattının üzerine gelene kadar su doldurmaya başladığınızı hayal edin. Su hattının posterior dağılımla kesiştiği noktalar% 95 -HDI'yi oluşturur. HDI içindeki her nokta, dışındaki herhangi bir noktadan daha yüksek bir olasılığa sahiptir. Ayrıca, HDI her zaman arka dağılımın zirvesini (yani modu) içerir. HDI, arka kuyrukların her% 2,5'inin hariç tutulduğu% 95'lik güvenilir bir aralıktan farklıdır ( buraya bakınız ).

İkinci göreviniz için, nüfusun% 5-20'sinin sol tarafların dikkate alındığı bilgisini birleştirmeniz isteniyor. Bunu yapmanın birkaç yolu var. En kolay yolu, önceki beta dağılımı bir ortalamaya sahip olmalıdır yani ortalamasıdır ve . Ancak önceki beta dağılımının ve seçilmesi nasıl yapılır ? İlk önce, önceki dağılımın ortalamasının, eşdeğer örneklem büyüklüğünde bir sahte örneklemden olmasını istersiniz . Daha genel olarak, önceki, yalancı örneklem büyüklüğü olan bir ortalama sahip olmak istiyorsanız , karşılık gelen $0.125$ $0.05$ $0.2$ $\alpha$ $\beta$ $0.125$ $n_{eq}$ $m$ $n_{eq}$ $\alpha$ ve değerleri: ve . Şimdi yapmanız gereken tek şey, önceki bilgileriniz hakkında ne kadar güvende olduğunuzu belirleyen sözde örneklem büyüklüğü seçmektir . Diyelim ki önceki bilgilerinizden çok ve . Önceki dağıtımınızın parametreleri, sırasıyla ve . Posterior dağılım , ortalama olarak yaklaşık ; bu, pratik olarak önceki ortalaması ile aynıdır. $\beta$ $\alpha = mn_{eq}$ $\beta = (1-m)n_{eq}$ $n_{eq}$ $n_{eq}=1000$ $\alpha = 0.125\cdot 1000 = 125$ $\beta = (1 - 0.125)\cdot 1000 = 875$ $\mathrm{Beta}(127, 891)$ $0.125$ $0.125$ . Önceki bilgi posterior'a baskın geliyor (aşağıdaki grafiğe bakınız):

Birincisi, verilerin olasılığı ve güçlü bir bilgilendirici önceki posterior dağılımı

Önceki bilgilerden daha az emin iseniz , önceki beta dağıtımınız için ve sonuç veren sözde örneğinizin değerini . Arka dağılım, ortalama olarak yaklaşık olan dır . Arka ortalama şimdi verilerinizin ortalamasına yakındır ( ) çünkü veriler . İşte durumu gösteren grafik: $n_{eq}$ $10$ $\alpha=1.25$ $\beta=8.75$ $\mathrm{Beta}(3.25, 24.75)$ $0.116$ $0.111$

Öncelikle, verilerin olasılığı ve önceki 3'ün sahte örneklem büyüklüğüne tekabül eden beta ile posterior dağılım

Önceki bilgileri içeren bir daha gelişmiş bir yöntem olduğunu söylemek olurdu hesabıyla önceki beta dağılımının quantile hakkında olmalıdır ve quantile hakkında olmalıdır . Bu,% 95'inizin, nüfus içinde kalanların oranının% 5 ila% 20 arasında olduğundan emin olduğunuzu söylemenize eşdeğerdir. R paketindeki işlev , bu miktarlara karşılık gelen bir beta dağılımının karşılık gelen ve değerlerini hesaplar . Kod $0.025$ $0.05$ $0.975$ $0.2$ beta.selectLearnBayes $\alpha$ $\beta$

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

İstenilen özelliklere ve parametrelerinin olduğu bir beta dağılımının göründüğü görülüyor . Önceki ortalama, bu, verilerinizin ortalamasına yakındır ( ). Yine, bu önceki dağıtım, yaklaşık eşdeğer numune büyüklüğüne sahip sahte bir örneklem bilgisini içerir . Posterior dağılımı olan bir ortalama oldukça bilgi verici kullanarak önceki analizin ortalaması ile karşılaştırılabilir önceden. İşte karşılık gelen grafik: $\alpha = 7.61$ $\beta=59.13$ $7.61/(7.61 + 59.13)\approx 0.114$ $0.111$ $n_{eq}\approx 7.61+59.13 \approx 66.74$ $\mathrm{Beta}(9.61, 75.13)$ $0.113$ $\mathrm{Beta}(125, 875)$

Öncelikle, verilerin olasılığı ve arkadaki dağılımın 0,05 ve 0,975 büyüklüğünde 0,05 ve 0,2 olması

Ayrıca Bayesian akıl yürütme ve basit analizlerin kısa ama iyi bir genel bakış için bu referansa bakınız . Konjugat analizleri için, özellikle de binom veriler için daha uzun bir giriş burada bulunabilir . Bayes düşüncesine genel bir giriş burada bulunabilir . Baysian istatistiklerinin özellikleriyle ilgili daha fazla slayt burada .

— COOLSerdash
kaynak

Neden burada Beta dağıtımını seçiyoruz?

— Metariat

@Metallica Birincil nedeni, Beta'nın binom dağılımından önceki konjugat olmasıdır . Bu, önceki gibi bir Beta seçersek, posteriorun da Beta olacağı anlamına gelir. Diğer nedenler, Beta'nın 0 ile 1 arasında olması ve çok esnek olmasıdır. Örneğin üniformayı içerir. Ancak, de destekle herhangi bir uygun dağıtım önceden olduğu gibi kullanılabilir. Sadece arkadakilerin hesaplanması daha zor.

(0, 1)

$(0,1)$

— COOLSerdash

Hala "Bayesyen düşünceye giriş" belgesine sahip misiniz? Dropbox bağlantısı öldü.

— bs7280

@ bs7280 Bağlantıları güncelledim. Şimdi tekrar çalışmalılar.

— COOLSerdash

@meduz Açıkça konuşursak, daha önce hiçbir gerçek "bilgisiz" yok. Seni bu tartışmadaki Tim'in mükemmel cevabına yönlendirmek istiyorum .

— COOLSerdash

= 1 ve = 1 olan bir beta dağılımı, tek biçimli bir dağılımla aynıdır. Yani aslında, tek tip. Bir dağıtım parametresi hakkında bilgi bulmaya çalışıyorsunuz (bu durumda, bir grup insanda solak kişilerin yüzdesi). Bayes formülü şöyledir: $\alpha$ $\beta$

$P(r|Y_{1,...,n})$ = $\frac{P(Y_{1,...,n}|r)*P(r)}{\int P(Y_{1,...,n}|\theta)*P(r)}$

belirttiğiniz şeyle orantılı:

$P(r|Y_{1,...,n})$ $\propto$ $(Y_{1,...,n}|r)*P(r)$

Yani temelde, gruptaki sol avcıların oranına ilişkin önceki inancınızla başlıyorsunuz (P (r), bunun için tek tip bir dağıtım kullanıyorsunuz), daha sonra önceden bildirmek için topladığınız verileri göz önünde bulunduruyorsunuz (binom) Bu durumda ya sağ ya da , bu yüzden ). Bir binom dağılımında bir beta konjugat vardır, bu da posterior dağılımın olduğu anlamına gelir. $P(Y_{1,...,n}|r)$ $P(r|Y_{1,...n})$ Verilerin değerlendirilmesinden sonra parametrenin dağılımı öncekiyle aynı ailededir. Burada r sonunda bilinmemektedir. (ve açıkçası veriyi toplamadan önce değildi. Toplumdaki sol avukatların oranı hakkında oldukça iyi bir fikrimiz var.) Hem önceki dağıtımı aldınız (hem de sizin varsayımınız) ve veri topladınız. ve ikisini bir araya getirin. Posterior, verileri değerlendirdikten sonra solakların dağılımı hakkındaki yeni varsayımınızdır. Böylece veri olasılığını alıyorsunuz ve tekdüze ile çarpıyorsunuz. Bir beta dağılımının beklenen değeri (posterin ne olduğu) . Öyleyse başladığınızda, = 1 ve varsayımınız $\frac{\alpha}{\alpha+\beta}$ $\alpha$ $\beta$ = 1, dünyadaki solakların oranının olmasıydı . Şimdi 18'den 2'si kalan verileri topladınız. Bir posterior hesapladınız. (hala bir beta) ve değerleriniz artık farklıdır; sol ve sağların oranı hakkındaki fikirlerinizi değiştirir. nasıl değişti? $\frac{1}{2}$ $\alpha$ $\beta$

— Eric Peterson
kaynak

Sorunuzun ilk bölümünde sizden "r" için uygun bir tanım tanımlamanızı ister. Elde binom veri ile bir beta dağılımı seçmek akıllıca olacaktır. Çünkü o zaman posterior bir beta olacaktır. Düzgün dağılım özel bir beta durumudur, "r" için önce "r" nin olası her değerinin eşit derecede muhtemel olmasını sağlayan Düzgün dağılımını seçebilirsin.

İkinci bölümde, önceki dağıtım "r" ile ilgili bilgileri verdiniz.

Bu arada @ COOLSerdash'ın cevabı size doğru talimatlar verecektir.

Doğru bir cevap verdiğiniz için bu soruyu ve COOLSerdash'ı gönderdiğiniz için teşekkür ederiz.

— Nilupa Rupasinghe
kaynak