Bayesci istatistiklere daha nazik yaklaşım

Yakın zamanda Bolstad'ın "Bayesci İstatistiklere Giriş" 2. Basımını okumaya başladım. Temel olarak istatistiksel testleri kapsayan ve neredeyse regresyon analizinde bir sınıftan geçen bir giriş istatistik sınıfım vardı. Bunu anlamam için başka hangi kitapları kullanabilirim?

İlk 100-125 sayfadan geçtim. Daha sonra kitap hipotez testinden bahsetmeye başlar, ki bu beni kapsamak için çok heyecanlıyım ama beni fırlatan birkaç şey var:

Hesaplamalarda olasılık yoğunluk fonksiyonlarının kullanımı. Başka bir deyişle, bu denklemlerin nasıl değerlendirileceği.
Bütün bu cümle: "Biz pi için önce bir beta (1,1) kullanan varsayalım Sonra verilen y = 8, arka yoğunluk beta (9,3) 'dir hipotezini arka olasılığıdır ...." Ben inanıyorum beta (1,1), ortalamanın 1 ve stdev'in 1? Posterior yoğunluk fonksiyonu olarak betaya (9,3) nasıl değişeceğini anlamıyorum.

Öncelikler ve posteriorlar kavramını alıyorum ve bunları manuel olarak bir tablo kullanarak nasıl uygulayacağımı anlıyorum. Pi'nin sözde nüfus oranını veya olasılığını temsil ettiğini düşünüyorum (sanırım!).

Bunu günlük bazda karşılaşacağım verilerle nasıl bağlayacağımı ve sonuçları elde edemiyorum.

hypothesis-testing bayesian

— Justin Bozonier
kaynak

parametresi , bağlamdan bir binom modelinin nüfus olasılığı olarak görünür. Bu durumda, beta dağılımı bilinen ve bilinmeyen ile binom olasılığı öncesinde konjugattır . Bununla birlikte, beta dağılımının parametreleri, normal dağılımda olduğu gibi ortalama ve standart sapma değildir. Beta dağılımının parametreleri açısından bir beta rasgele değişkenin ortalamasının ve varyansının formülünü görmek için Wikipedia sayfasına bakın.

π

$\pi$

n

$n$

π

$\pi$

— caburke

Teşekkür ederim! Önceden eşlenik olmak, bana aşina olmayan başka bir terimdir. Tanıtım düzeyinde bununla ilgili daha fazla bilgiyi nereden edinebilirim?

— Justin Bozonier

Daha pratik bir metinle ilgileniyor olabilirsiniz, Hackerlar için Bayesian Yöntemleri gördünüz mü? (Açıklama - Ben katkıda bulunan bir yazarım) Aramaya çalışın (açık kaynak kodlu ve ücretsiz).

— Cam.Davidson.Pilon

@JustinBozonier Bu bağlantı stats.stackexchange.com/questions/66018/… konjugat öncelikleri de dahil olmak üzere insanların öncelikleri tanımlamak için kullandıkları farklı terimler hakkında bazı açıklamalar verir.

— Sycorax, Reinstate Monica

@ Cam.Davidson.Pilon Bunun için teşekkürler! Sadece bu sayfadaki grafiklerde inançların güncellenmesi, diğerlerinin söylediklerinden daha fazlasını elde etmeme yardımcı oluyor: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/…

— Justin Bozonier

Yanıtlar:

Hesaplamalarda olasılık yoğunluk fonksiyonlarının kullanımı. Başka bir deyişle, bu denklemlerin nasıl değerlendirileceği.

Bence bunu hala sık sık bir perspektiften düşünüyorsunuz: Eğer bir nokta tahmini arıyorsanız, posterior bunu size vermeyecektir. PDF'leri yerleştirirsiniz, PDF'leri çıkarırsınız. Posterior dağılımınızdaki istatistikleri hesaplayarak puan tahminleri elde edebilirsiniz, ancak bunu birazdan alacağım.

Öncelikler ve posteriorlar kavramını alıyorum ve bunları manuel olarak bir tablo kullanarak nasıl uygulayacağımı anlıyorum. Pi'nin sözde nüfus oranını veya olasılığını temsil ettiğini düşünüyorum (sanırım!).

$\pi(x)$ , aynı şeydir : her ikisi de PDF'dir. sadece geleneksel olarak belirli PDF'nin bir önceki yoğunluk olduğunu belirtmek için kullanılır. $p(x)$ $\pi$

Sanırım sizin de düşündüğünüz gibi öncelikler ve posterler almadığınızdan şüpheleniyorum, bu yüzden Bayes istatistiklerinin temel dayanağına destek olalım: Öznel Olasılık .

Öznel Olasılıkta Düşünce Deneyi

Diyelim ki size bir bozuk para sundum ve size bu bozuk paranın adil bir para olup olmadığını sordum. Pek çok insanın olasılık sınıfındaki haksız paralar hakkında konuştuğunu duydunuz, ancak gerçek hayatta hiç bir tane görmediniz, bu yüzden "Evet, elbette, adil bir para olduğunu düşünüyorum." Ancak, size bu soruyu sormam bile gerçeği biraz ortaya çıkarıyor, bu yüzden tahmininiz adil olsa da, olmasaydı gerçekten şaşırmayacaksınız. Bu parayı cebinizde değiştirdiğinizden çok daha az şaşırttı (çünkü bunların hepsinin gerçek para birimi olduğunu varsayıyorsunuz ve şu anda bana gerçekten güvenmiyorsunuz çünkü şüpheli davranıyorum).

Şimdi birkaç deneme yaptık. 100 döndürmeden sonra madeni para 53 Kafa verir. Bunun adil bir madeni para olduğundan çok daha eminsin, ama hala olma ihtimaline açıksın. Fark şu ki, bu madalyonun bir çeşit önyargıya sahip olması durumunda oldukça şaşırırsınız.

Özellikle, madalyonun kafaları gösterme olasılığı hakkında (ki bunu göstereceğiz) önceki ve posterior inançlarınızı nasıl temsil edebiliriz ? Sıkça yapılan bir ortamda, önceki inancınız - sıfır hipoteziniz - . Deneyi çalıştırdıktan sonra, null değerini reddedemezsiniz ve bu nedenle, evet, madalyonun muhtemelen adil olduğu varsayımına devam edersiniz. Fakat madalyonun adil olduğuna olan güveninizdeki değişimi nasıl özetleyebiliriz ? Deneyden sonra madalyonun adil olduğuna bahse gireceğiniz bir pozisyondasınız, ancak deneyden önce korkutucu olurdu. $\theta$ $\theta = 0.5$

Bayesian ayarında, olasılıkları skaler değerler olarak değil rastgele değişkenler, yani işlevler olarak ele alarak önermelere olan güveninizi kapsüllersiniz. Yerine söyleyerek diyeceğiz ve böylece PDF varyansı olan güvenimizi saklanması. Eğer yüksek bir sapma belirlersek, diyorum ki, "olasılığın 0,5 olduğunu düşünüyorum, ama aslında dünyada gözlemlediğim olasılık bu değerden uzaksa şaşırmam." , ama açıkçası gerçekten o kadar emin değilim. " Düşük bir varyans ayarlayarak, "Sadece olasılığın 0,5 olduğuna inanmıyorum, aynı zamanda deney çok yakın olmayan bir değer sağlarsa çok $\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ ." Bu yüzden, bu örnekte sen senin öncesinde, önce ortalama aynı kaldı doğruluyor verileri aldıktan sonra. Eğer yüksek varyans ile önceden var denemeyi başlatmak, ancak varyans daha dar olunca. Bizim güveni o Deney yapıldıktan sonra öncekinden çok daha yüksek. $\theta=0.5$

Peki hesaplamaları nasıl yapıyoruz?

PDF'lerle başlıyoruz ve PDF'lerle bitiyoruz. Bir nokta tahmini bildirmeniz gerektiğinde, posterior dağılımınızın ortalama, medyan veya modu gibi istatistikleri hesaplayabilirsiniz (şu anda girmeyeceğim kayıp fonksiyonunuza bağlı olarak. Sadece ortalamaya sadık kalalım). PDF'niz için kapalı bir form çözümünüz varsa, bu değerleri belirlemek muhtemelen önemsiz olacaktır. Posterior karmaşıksa, posteriordan örnek almak ve çizdiğiniz örnekten istatistik almak için MCMC gibi prosedürleri kullanabilirsiniz.

Önceden Beta ve Binom olasılığınızın olduğu örnekte, posteriorun hesaplanması çok temiz bir hesaplamaya indirgenir. Verilen:

Önceki: $\theta \sim Beta(\alpha, \beta)$
Olabilirlik: $X|\theta \sim Binomial(\theta)$

Sonra posterior şunları azaltır:

Posterior: $\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Bu, daha önce bir beta ve binom olasılığınız olduğunda ve DJE tarafından sağlanan hesaplamalarda neden açık olması gerektiğinde olur . Belirli bir önceki olabilirlik modeli her zaman öncekiyle aynı tür dağılım gösteren bir posterior verdiğinde, önceki ve olabilirlik için kullanılan dağılım türleri arasındaki ilişkiye Konjugat denir . Eşlenik ilişkileri olan birçok dağılım çifti vardır ve eşlenik hesaplamaları basitleştirmek için Bayesliler tarafından sıklıkla kullanılır. Belirli bir olasılık göz önüne alındığında, önceden bir konjugat seçerek hayatınızı çok daha kolay hale getirebilirsiniz (eğer varsa ve önceki seçiminizi haklı çıkarabilirsiniz).

Beta (1,1), ortalamanın 1 ve stdev'in 1 olduğu bir PDF'yi ifade ettiğine inanıyorum.

Normal dağılımın ortak parametrelendirilmesinde, iki parametre dağılımın ortalama ve standart sapmasını gösterir. Ancak normal dağılımı bu şekilde parametrelendiriyoruz. Diğer olasılık dağılımları çok farklı parametrelendirilir.

Beta dağılımı genellikle olarak parametrelendirilir burada ve "şekil" parametreleri olarak adlandırılır. Beta dağılımı son derece esnektir ve bu parametrelerin nasıl ayarlandığına bağlı olarak birçok farklı şekil alır . Bu parametreleştirmenin orijinal varsayımınızdan ne kadar farklı olduğunu göstermek için, Beta rasgele değişkenlerin ortalamasını ve varyansını nasıl hesapladığınız aşağıda açıklanmıştır: $Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & ~ B e t bir (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Gördüğünüz gibi, ortalama ve varyans bu dağılımın parametrelendirilmesinin bir parçası değildir, ancak giriş parametrelerinin basit işlevleri olan kapalı form çözümlerine sahiptir.

Diğer iyi bilinen dağıtımların parametrelendirilmelerindeki farklılıkları açıklayan ayrıntılı bir şekilde ele almayacağım, ancak birkaçına bakmanızı öneririm. Herhangi bir temel metin, hatta Wikipedia bile , parametrelerin değiştirilmesinin dağıtımı nasıl değiştirdiğini açıklamalıdır. Farklı dağılımlar arasındaki ilişkileri de okumalısınız (örneğin, aynı şeydir ). $Beta(1,1)$ $Uniform(0,1)$

— David Marx
kaynak

Cevabınızın bana verdiği en önemli şey, tek bir değer aramanın asıldığım yer olduğunun farkına vardı. Kruschke metnini dağılımlar açısından düşünmeye başladıktan sonra her şey çok daha anlamlı olmaya başladı. Teşekkür ederim!

— Justin Bozonier

Beta dağıtımında . Bir beta (1,1) dağılımının parametreleri . (Ne yazık ki, bu tür istatistiksel kısa el okuyucuya belirli bir modelin nasıl parametrelendirildiğini bilmek için bir yük getirir!) $p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

Binom olasılığından önceki beta (ikili sonuçlarla sabit sayıda çalışma ve sabit başarı / başarısızlık olasılıkları), posteriorun (önceki ve olasılığın ürünü) kapalı formda yazılmasına izin veren konjugati özelliğine sahiptir:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ α \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ α θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ α θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

Metindeki belirli bir örnek için yazar n = 10 ve y = 8 verisinden önceki bir betanın (1,1) bir beta (1 + 8,1 + 2) = beta (9,3) posterior ürettiğini belirtiyor üzerinde dağıtım . $\theta$

Bu kapalı biçimli ifade uygundur, ancak hiçbir şekilde gerekli değildir. Olasılık yoğunluklarının çarpımı, diğer matematiksel ifadelerin çarpımı ile aynı şekilde yapılabilir; birçok yoğunluk ürününün beta öncesi / binomial olasılığı kadar kolay yeniden yazılmaması nedeniyle zorluklar ortaya çıkar. Neyse ki, burası bilgisayarlar boşluğu alıyor.

— Sycorax: Monica'yı eski durumuna getirdi
kaynak

Daha yumuşak bir yaklaşım arıyorsanız, Kruschke'nin temel kavramları açıklamak için R'yi kullanan kitabı şiddetle tavsiye ederim . Bayesian istatistiklerini öğrenmede çok pratik ve uygulamalı bir yaklaşımdır ve web sitesinde kullanılan tüm kodları bulabilirsiniz.

Birisi de Cam.Davidson.Pilon'un metnini tavsiye etti, henüz bakmadı, ancak burada bulunabilir .

— horseoftheyear
kaynak

Teşekkürler! Aslında zaten Kruschke kitabına sahibim ve sadece gözden geçirmek için geri döndüm ve şu anda tam olarak neye ihtiyacım olduğunu anladım. İşaretçi için teşekkürler!

— Justin Bozonier

@ JustinBozonier İstatistik Teorisine (Mood) Giriş'i de şiddetle tavsiye ederim . Nispeten yüksek düzeyde bir titizlik sağlar, ancak sadece çok temel hesabı bildiğinizi varsayar.

— Steve P.