Beta rasgele değişkenin ters normal CDF'si hangi dağılımı takip eder?


14

Varsayalım:

XBeta(α,β)

YΦ1(X)

burada , standart normal dağılımın CDF'sinin tersidir .Φ1

Sorum şu: takip ettiği ya da yakın olabileceği basit bir dağılım var mı? YYY -Y a p a = 1 ; β = 1 X YSimülasyon sonuçlarına (aşağıda gösterilmiştir) dayalı güçlü bir şüphe duyuyorum çünkü ve yüksek olduğunda normal bir dağılıma , ama neden matematiksel olarak olacağını bilmiyorum. (Elbette , eşit olur ve standart normal olur, ancak neden daha yüksek değerler için doğru olur?).Yαβα=1;β=1XY

Eğer bu normale yakınsa, o normalin parametreleri ve cinsinden ne olur ? (Ortalamanın çünkü modun dönüşümü budur, ancak standart sapmayı bilmiyorum).β Φ - 1 ( ααβΦ1(αα+β)

(Başka bir deyişle, bu ve bazı yönleri için beta dağıtımına soruyor olabilir mi? cevaplaması daha kolay).μ σΦ(Norm(μ,σ))μσ

Simulasyon sonuçları

Burada sonucun normal olduğundan şüphe duyduğumu gösteriyorum (çünkü matematik ile yedekleyemiyorum). simülasyonu R ile ve arasında yapılabilir . Örneğin, ve yüksek parametreleri seçmek :α = 3000 β = 7000Yqnormrnormα=3000β=7000

hist(qnorm(rbeta(5000, 3000, 7000)))

Bu normal görünüyor qqnormve Shapiro-Wilk testi (normalliğin sıfır hipotez olduğu) bunu da öneriyor:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Normalliği biraz daha derinlemesine araştırmak için, her seferinde 5.000 değer simüle eden 2.000 simülasyon gerçekleştiriyorum , sonra normal ile karşılaştırmak için testi gerçekleştiriyorum. (5K değerlerini seçtim çünkü bu maksimum işleyebilir ve normdan sapmaları tespit etme gücünü en üst düzeye çıkarır).Yshapiro.test

Eğer dağılım gerçekten normal olsaydı, p-değerlerinin tekdüze olmasını beklerdik (boş olduğu için). Gerçekten tekdüze yakınlar, bu da dağılımın normale çok yakın olduğunu düşündürüyor:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Bazı deneyler, yüksek ve değerlerinin dağılımın normale yaklaştığını gösterir (örneğin normalden oldukça uzaktır, ancak deneyin ve aralarında bir yerlerde olduğu görülür).βαβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))


2
Burada ilginç bir şey olmaz. Olarak ve P aynı oranda kalması ya da en azından varsayalım büyür, bu izin en α / ( α + β ) uzak kalır , 0 ve 1 . Daha sonra Beta ( α , β ) dağılımı Normal olur ve keyfi olarak dar bir aralıkta konsantre edilir. Φ - 1 , ayırt edilebilir olmakla birlikte, esasen doğrusal hale gelir, bu yüzden neredeyse normal bir değişkenin doğrusal bir dönüşümüne bakıyorsunuzdur. Bu sonucun Φ - 1 ile ilgisi yoktur.αβα/(α+β)01(α,β)Φ1Φ1kendisi ve Beta dağılımları hakkında bilgi eklemez.
whuber

1
@whuber Bu büyük ve β için mantıklı (bana bunun beta'ya eşdeğer normalden daha yakın olduğunu düşündüren bazı simülasyonlarım vardı, ama yeniden çalıştırma üzerine o zaman bir hata olduğunu düşünüyorum). Α = 2 ile ilgili düşünceler ; β = 2 ? Dist normalden çok uzak, ama qnorm oldukça yakın. αβα=2β=2
David Robinson

1
@whuber Ör deneyin hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))ardından, hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). Diğer bir deyişle, olduğunda beta normaldir, çünkü α ve β yüksek olduğunda beta kabaca normaldir; normal veya üniform mu? α=β=1αβ
David Robinson

5
Bu kesinlikle daha ilginç! Beta'nın Normal'e çok yakın olmadığı, ancak küçük Beta parametreleri için bile dönüşümün yaklaşık Normal olduğu konusunda haklısınız. Normallikten sapmalar kuyruklarda veya daha fazla görünür , ancak dağılımın gövdesi boyunca oldukça küçüktür. Sonuçta bu, Beta kuyruklarının güç hukuku davranışına göre izlenebilir. Z=±3
whuber

Yanıtlar:


7

özet

Bir örneklemin medyanının bir analizini gösteren Örnek Ortamlar için Merkezi Limit Teoreminde açıklanan yapının bir kısmını yeniden keşfettiniz . (Analiz açıkçası mutatis mutandis , sadece medyan için değil, herhangi bir kantil için geçerlidir ). Bu nedenle, büyük Beta parametreleri için (büyük örneklere karşılık gelen), soruda açıklanan dönüşüm altında bir Normal dağılımın ortaya çıkması şaşırtıcı değildir. İlginç olan, dağılımın küçük Beta parametreleri için bile Normal'e ne kadar yakın olduğudur. Bu bir açıklamayı hak ediyor.

Aşağıda bir analiz yapacağım. Bu yazıyı makul bir uzunlukta tutmak için, çok fazla müstehcen el sallama içerir: Sadece temel fikirleri belirtmeyi amaçlıyorum. Bu yüzden sonuçları burada özetleyeyim:

  1. Tüm yakın p , her simetriktir. Bu, dönüştürülmüş dağıtımın zaten Normal görünmesine neden olur.αβ

  2. Formu işlevleri daha küçük değerler için, ilk olarak, oldukça normal bir görünüm a ve p (her ikisi de fazla Resim 1 kendi oranı çok değildir ve 0 veya 1'e yakın ).Φα1(x)(1Φ(x))β1αβ101

  3. Dönüştürülmüş dağılımın görünen Normu, yoğunluğunun (2) 'deki bir fonksiyonla çarpılan Normal yoğunluktan oluşmasından kaynaklanmaktadır.

  4. Olarak ve β bir artış, Normallik ayrilis günlük yoğunluğu için bir Taylor serisi içinde kalan cinsinden ölçülebilir. N sırası terimi α ve β'nın ( n - 2 ) / 2 gücüyle orantılı olarak azalır . Bu, nihayetinde, yeterince büyük α ve β için , n = 3 veya daha yüksek tüm güç terimlerinin nispeten küçük hale geldiğini ve sadece ikinci dereceden ayrıldığını gösterir: ki bu tam olarak bir Normal dağılımın log yoğunluğudur.αβn(n2)/2αβαβn=3

Toplu olarak, bu davranışların güzel izah neden hatta küçük için ve p bir iid Normal numune görünüm yaklaşık Normal olmayan aşırı quantiles.αβ


analiz

Genelleme yapmak yararlı olabildiğim için, let olmak herhangi aklımızda olmasına rağmen, dağıtım fonksiyonu F = j .FF=Φ

Bir Beta ( α , β ) değişkeninin yoğunluk fonksiyonu , tanım gereği,g(y)(α,β)

yα1(1y)β1dy.

İzin vermek olasılık integral dönüşümü olabilir x ve yazma f türevi için F olduğu, bu hemen olan X ile orantılı bir yoğunluğa sahiptiry=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Bu, kuvvetli bir şekilde tekdüze olmayan bir dağılımın (Beta) tekdüze bir dönüşümü olduğundan, oldukça garip olmadığı sürece , dönüştürülmüş dağıtım da tekdüze olacaktır. Normal'e ne kadar yakın olabileceğini incelemek için, yoğunluğunun logaritmasını inceleyelim,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

burada , ilgisiz bir normalleşme sabiti.C

Taylor serisindeki bileşenlerini genişletmek için x 0 değerinde üç değer sipariş edin (bir moda yakın olacaktır). Örneğin, genişlemesini yazabilirsiniz günlük F olaraklogG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

h|h||xx0|log(1F)logf

Doğrusal terimler

(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

x0G(;α,β)x0αβx0αβc1fαβ α:βγx0

γc1F+c11F=0.

γ=1α=βF0x0=F(0)=1/2

(A) Limanda, Taylor serisindeki birinci dereceden terimin ortadan kalktığı ve (b) yeni tarif edilen özel durumda, birinci dereceden terimin daima sıfır olduğu bir yöntem elde ettik.

İkinci dereceden terimler

Bunlar toplam

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

(1/2)(xx0)2/σ21/(2g2(α,β))GGx(xx0)n(1/(2g2(α,β)))n/2.

Kalan terim

n

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

Standardizasyondan sonra,

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

giαβn/2(n2)/2αβ

olduğundaF

Ff(x)GFα1(1F)β1

αβα=βG4xx0=x

α>1

şekil

0α=β=1Φ1(1,1)0.008α2


2

yakınsama

α=βαε>0var(X)0P[|X0.5|>ε]0P[|Y|>ε]0Y aslında dağıtımda birleşir - singleton'a).

Kesin dağıtım

fXY

fY(y)=fX(Φ(y))ϕ(y).
ΦFullSimplify

İşte R'deki yoğunluk, böylece histogram yerine çizebilirsiniz.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

değişiklik

Z=Φ1(αX)
α=βvar(αX)1/8

1

kNk2XBeta(k,k)Y=Φ1(X)

n=2k1nU1,,UnU(1)U(n)

U(k)Beta(k,n+1k)

U(k)Beta(k,k)

nBeta(k,k)

Zi=Φ1(Ui)ZiZiZ(1)Z(n)Φ1

Φ1(U(k))=Z(k)

Yn

kkk=2

ab

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.