Binom ve Beta dağılımları arasındaki ilişki


27

Bir istatistikçiden çok bir programcıyım, bu yüzden umarım bu soru çok saf değildir.

Rastgele zamanlarda örnekleme program uygulamalarında olur. Programın durumunun N = 10 rasgele zamanlı örneğini alırsam, Foo işlevinin yürütülmekte olduğunu görebiliyordum, örneğin bu örneklerden I = 3. Bana, Foo'nun uygulandığı F zamanının gerçek kesirinden bahseden şeyle ilgileniyorum.

Binom olarak ortalama F * N ile dağıldığını anlıyorum. Ayrıca, I ve N 'ye verilen F' nin bir beta dağılımını takip ettiğini de biliyorum. Aslında, bu iki dağıtım arasındaki ilişkiyi programlayarak doğruladım.

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

Sorun şu ki, ilişki için sezgisel bir hissim yok. Neden işe yaradığını "hayal edemiyorum".

EDIT: Tüm cevaplar zorluydu, özellikle @ whuber's, hala grok yapmam gereken, ancak sırayla istatistikleri getirmek çok yardımcı oldu. Yine de daha temel bir soru sormam gerektiğini farkettim: Ben ve N verildiğinde F'nin dağılımı nedir? Herkes bildiğim Beta olduğunu belirtti. Sonunda Vikipedi'den ( Konjugat öncesi ) göründüğünü anladım Beta(I+1, N-I+1). Bir programla keşfettikten sonra doğru cevap gibi görünüyor. Bu yüzden yanlış olup olmadığını bilmek istiyorum. Ve yukarıda gösterilen iki cdfs arasındaki ilişki, hala neden 1'e düştüğü ve hatta gerçekten bilmek istediklerimle bir ilgisi varsa bile, kafam karıştı.


Eğer "gerçekten bilmek istediğin şey" ise, "Foo'nun yürütülmekte olduğu zamanın gerçek kesri" ise, o zaman bir Binom güven aralığı veya (Bayesian) Binom güvenilir aralığı hakkında sorular soruyorsunuz.
whuber

@ whuber: Üç yıldan uzun bir süredir rastgele duraklatma performans ayarı yöntemini kullandım ve bazı insanlar da bunu keşfetti. İnsanlara, eğer bir koşulun 2 veya daha fazla rastgele-zamanlı numunede geçerli olması durumunda, durumu ortadan kaldırmak zamanın iyi bir kısmını kazandıracağını söyledim. NASIL iyi bir kesir daha önce bir Bayesian bilmediğimizi farzederek açık olmaya çalıştığım şeydir. İşte genel alev: stackoverflow.com/questions/375913/… ve stackoverflow.com/questions/1777556/alternatives-to-gprof/…
Mike Dunlavey

1
İyi fikir. İstatistiksel varsayım, kesintinin makul bir hipotez olan yürütme durumundan bağımsız olduğu şeklindedir. Bir binom güven aralığı belirsizliği temsil etmek için iyi bir araçtır. (Aynı zamanda bir göz açıcı olabilir: 3/10 durumunuzda, gerçek olasılık için simetrik iki taraflı% 95 CI [% 6.7,% 65.2]. 2/10 durumda ise aralık [2.5 %,% 55.6] Bunlar geniş aralıklardır! 2/3 ile bile, alt sınır hala% 10'dan daha azdır. Buradaki ders, oldukça nadir bir şeyin iki kez gerçekleşebileceğidir.)
whuber

@whuber: Teşekkürler. Haklısın. Daha faydalı bir şey beklenen değerdir. Önceden olduğu kadarıyla, yalnızca bir kez bir şey görürseniz , programın sonsuz (veya aşırı uzun) bir döngüde olduğunu bilmediğiniz sürece size pek bir şey söylemediğine işaret ediyorum .
Mike Dunlavey,

Tüm cevapların ve yorumların kesinlikle aydınlatıcı ve doğru olduğunu düşünüyorum, ancak @MikeDunlavey'in orijinal görevine koyduğu ilginç eşitlikten kimse etkilenmedi. Bu eşitlik Beta wikipedia en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function adresinde bulunabilir, ancak durumun neden böyle olduğuna dair bir açıklama yoktur, bu sadece bir özellik olarak belirtilmiştir.
bdeonovic

Yanıtlar:


27

Sipariş istatistikleri göz önünde ve bağımsız tek tip bir dağılım çizer. Çünkü sıra istatistikleri Beta dağılımları sahip olduğunu, şans geçmemesi Beta integrali verilir n + 1 x [ k ] px[0]x[1]x[n]n+1x[k]p

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(Bu neden? İşte titiz ama unutulmaz bir gösteri. ve arasında olasılığı tekdüze değerlerden ile arasında olma şansı , bunlardan en az biri ve arasındadır ve geri kalanı ve arasında yer almaktadır .. Sonsuz ilk sırayı almak için sadece tam olarak bir değerin olduğu durumu düşünmeliyiz (yani, kendisi) ve ve bu nedenlex[k]pp+dpn+1k0ppp+dpp+dp1dpx[k]pp+dpnk değerleri aşıyor . Tüm değerler bağımsız ve tekdüze olduğundan, bu olasılık ile orantılıdır . ilk sırayı almak için bu , tam olarak Beta dağılımının integrali olan eşittir . terimi ya da dolaylı olarak türetilmiş türetilen türevsel olarak doğrudan bu argümandan hesaplanabilir . İntegralin normalleştirici sabiti.)p+dppk(dp)(1pdp)nkdppk(1p)nkdp1B(k+1,nk+1)(n+1k,1,nk)

Tanım olarak, olayı , değerinin geçmemesidir . Eşdeğer olarak, değerlerin en az geçmez : bu basit (ve umarım açıktır) iddiası, aradığınız sezgiyi sağlar. Eşdeğer ifadenin olasılığı Binom dağılımına göre verilir,x[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

Özet olarak , Beta integrali bir olayın hesaplanmasını bir dizi hesaplamaya böler: aralığında en az değerinin bulunması, normalde Binom cdf ile hesaplayacağımız olasılık karşılıklı olarak bozulur. tam değerlerinin ve 1 değerinde olduğu münhasır durumlar tüm olası , için aralığındadır ve , sonsuz bir uzunluktur. Tüm bu "pencereler" toplanıyor - bu, bütünleşiyor - Binom cdf ile aynı olasılığı vermek zorunda.k+1[0,p] k[0,x][x,x+dx]x0x<pdx[x,x+dx]

alt metin


Çabalarını takdir ediyorum. Bunu gerçekten çalışmak zorunda kalacağım çünkü bu benim "anadilim" değil. Ayrıca, birçok dolar işareti ve biçimlendirme malzemesi görüyorum. Bilmediğim bir şey var mı gerçek matematik gibi görünüyor?
Mike Dunlavey

Ne oldu? Aniden matematiğin ortaya çıktığı yer ve buraya yazmak çok yavaşladı.
Mike Dunlavey


Bir göz atmak istersen soruyu gözden geçirdim. Teşekkürler.
Mike Dunlavey,

1
Biraz geç oldu, ama sonunda oturup argümanı tekrar oluşturacak zamanım oldu. Anahtar "multinom katsayısı" idi. Eski binom katsayılarını kullanarak onu çözmeye çalıştım ve toplanmaya başlamıştım. Güzel bir cevap için tekrar teşekkürler.
Mike Dunlavey,

12

Binomial'ın pdf'sine : ve işlevine bakın : Muhtemelen görebilirsiniz ve için uygun (tamsayı) bir seçim ile bunlar aynıdır. Söyleyebileceğim kadarıyla, bu ilişkinin hepsi bu: binom pdf'ye girme biçimine Beta dağıtımı deniyor.x

f(x)=(nx)px(1p)nx
p
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp

Bunların hemen hemen aynı göründüğünü biliyorum, ancak nx yerine y ile yer değiştirirsem ve Beta pdf alıp a-1 yerine x yerine ve b-1 yerine y yerine koyarsam (x + y + 1), veya n + 1'dir. yani (x + y + 1)! / x! / y! * p ^ x * q ^ y. Beni atmak için yeterli görünüyor.
Mike Dunlavey,

1
Belki birileri tam bir tepki ile çınlayacaktır, ancak “sezgisel” bir açıklamada, her zaman ilgilenilen değişkenlere ( ve ) bağlı olmayan ( gibi ) sabitleri ( gibi ) el sallayabiliriz. pdf'i ekleyin / birleştirin. “eşitlik” işaretlerini “işaretleriyle orantılı” işaretleriyle değiştirmekten çekinmeyin. n+1xp
Aniko

İyi bir nokta. Sanırım bir anlayışa yaklaşıyorum. Hala x'in p dağıtımı hakkında neler söylediğini ve neden bu iki cdfs'nin 1'e
düştüğünü söylemeye çalışıyorum

1
"Sezgisel" açıklamaların farklı bir görüşünü alıyorum. Bazı durumlarda sabitleri çok fazla umursamıyoruz, ancak bu durumda , maddenin asıl nedeni n + 1'in n neden görünmediğini görmektir. Bunu anlamıyorsanız, "sezgileriniz" yanlıştır.
whuber

Bir göz atmak istersen soruyu gözden geçirdim. Teşekkürler.
Mike Dunlavey,

5

Eğer belirtildiği gibi, Beta dağılımı parametre deneme olasılık dağılımını açıklar binom dağılımı parametre sonucun dağılımını açıklar iken, . Sorunuzu yeniden yazarken, neden sorduğumun Yani, gözlem artı bir gözlemin beklentisinden daha büyük olabilir gözlem artı bir gözlemin beklentisinden daha büyük.FI

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)

Bunun sorunun orjinal formülasyonunun anlaşılmasına yardımcı olmayabileceğini kabul ediyorum, ancak belki de en azından iki dağılımın farklı parametrelerin davranışını tanımlamak için aynı temel tekrarlanan Bernoulli denemeleri modelini nasıl kullandığını görmeye yardımcı olur.


Üstlendiğin için teşekkür ederim. Tüm cevaplar soru hakkında düşünmeme ve sorduğumu daha iyi anlamama yardımcı oluyor.
Mike Dunlavey

Bir göz atmak istersen soruyu gözden geçirdim. Teşekkürler.
Mike Dunlavey,

1
Revizyonunuzla ilgili olarak: Evet, , örnekleme aralıklarınız her gözlemin bağımsız ve aynı şekilde dağıtılmış olduğu kadar uzun olduğu sürece. Bu konuda Bayesian olmak ve asıl oranın ne olmasını beklediğinizle ilgili olarak tek tip bir ön dağılım belirtmek istiyorsanız, her iki parametreye başka bir şey ekleyebileceğinizi unutmayın. FBeta(I+1,NI+1)
sesqu

@sesqu, cevabınız bir şekilde buradaki sorumla ilgili olabilir: stats.stackexchange.com/questions/147978/… ? Bu konudaki düşüncelerinizi takdir ediyorum.
Vicent

1

Bayesian topraklarında, Beta dağılımı Binom dağılımının p parametresi için önceki konjugattır.


2
Evet, ama neden böyle?
vonjd

1

Diğer cevaplar hakkında yorum yapamam, bu yüzden kendi cevabımı oluşturmam gerekiyor.

Posterior = C * Olabilirlik * Önceki (C, Posterior'u 1'e entegre eden bir sabittir)

Olasılık için Binom dağılımını ve Prior için Beta dağılımını kullanan bir model göz önüne alındığında. Posterior oluşturan ikisinin ürünü de bir Beta dağılımıdır. Prior ve Posterior'un ikisi de Beta olduğundan ve dolayısıyla birleşik dağılımları olduğundan . Önceki (bir Beta) olabilirlik olasılığından önce konjugat olarak adlandırılır (Binom). Örneğin, bir Beta'yı Normal ile çarpıyorsanız, Posterior artık bir Beta değildir. Özet olarak, Beta ve Binom, Bayesian çıkarımında sıklıkla kullanılan iki dağıtımdır. Beta, Binomial'ın Konjugat Öncesidir, ancak iki dağılım diğerinin alt kümesi veya üst kümesi değildir.

Bayesci çıkarımın ana fikri, p parametresini, p parametresini sabit olarak gördüğümüz, frekansçı çıkarım yaklaşımına aykırı olan [0,1] arasında değişen rastgele bir değişken olarak görüyoruz. Beta dağılımının özelliklerine yakından bakarsanız, Ortalama ve Modunun yalnızca p parametresiyle ilgili olmayan ve tarafından belirlendiğiniαβ göreceksiniz . Bu, esnekliği ile birleştiğinde, Beta'nın genellikle Öncelik olarak kullanılmasının nedeni budur.


1

Özet: Sık sık Beta dağıtımının dağıtımlarda bir dağıtım olduğu söylenir! Ama ne anlama geliyor?

Esasen düzeltebileceğiniz ve bir fonksiyonu olarak düşünebileceğiniz anlamına gelir . Ne hesaplama aşağıda diyor olduğunu değerinin den artar kadar zaman ayar den kadar . Her biri artan oranı tam olarak , en .n,kP[Bin(n,p)k]pP[Bin(n,p)k]01p01pβ(k,nk+1)p

görüntü tanımını buraya girin


Let ile bir rasgele değişken ifade örnekleri ve başarı olasılığını . Temel cebir kullanarakBin(n,p)np

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

Aynı zamanda bazı güzel birleşimsel kanıtı var, bir egzersiz olarak düşünün!

Böylece sahibiz:

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
bir teleskop dizisidir ve basitleştirilebilir

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


Remark de arsa bakmak etkileşimli bir sürümünü görmek için bu . Dizüstü bilgisayarı indirebilir veya sadece Ciltçi bağlantısını kullanabilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.