Normal rastgele değişkenler için yaklaşık sıra istatistikleri


38

Belirli rastgele dağılımların düzen istatistikleri için iyi bilinen formüller var mı? Özellikle normal rastgele değişkenin birinci ve son derece istatistikleri, ancak daha genel bir cevap da takdir edilecektir.

Düzenleme: Açıklığa kavuşturmak için, tam integral ifadesini değil, açıkça veya daha az açıkça değerlendirilebilecek yaklaşık formülleri arıyorum.

Örneğin, normal bir rv'nin birinci dereceden istatistiği için (yani minimum) aşağıdaki iki yaklaşımı gördüm:

e1:nμn12n1σ

ve

e1:nμ+Φ1(1n+1)σ

Bunlardan ilki, , yaklaşık olarak ;n=200e1:200μ10σ

İkincisi, verirken, hızlı bir Monte Carlo , bu yüzden de kötü bir yaklaşım değildir, ama ya büyük değildir Daha da önemlisi, nereden geldiği hakkında hiçbir fikrim yok.e1:200μ2.58σe1:200μ2.75σ

Herhangi bir yardım?


4
R kullanıyorsanız, ppoints işlevine bakın.
kardinal

1
@ probabilityislogic, listelediğiniz yaklaşımlar için bazı iyi sezgiler sunmuştur. Alternatif bir bakış açısıyla biraz daha fazlasını verirsem, ya da bu konudaki merakınızı tatmin ettin mi?
kardinal, 19

Yanıtlar:


31

Klasik referans Royston (1982) [1] 'dir ve açık formülleri aşan algoritmaları vardır. Ayrıca, Blom (1958) tarafından iyi bilinen bir formülden alıntı yapar: olan . Bu formül için -2.73 çarpanını verir .α=0.375n=200,r=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]: AS 177 Algoritması: Beklenen Normal Sıra İstatistikleri (Tam ve Yaklaşık) JP Royston. Kraliyet İstatistik Derneği Dergisi. Seri C (Uygulamalı İstatistik) Vol. 31, No. 2 (1982), sayfa 161-165


21

Bu sıralı herhangi bir rasgele rasgele sıralamanın istatistik dağılımı PDF değişkeniyle "beta-F" bileşik dağılımı verilir. Bu dağılım hakkında düşünmenin sezgisel yolu, örneğindeki sıra istatistiklerini düşünmektir . Şimdi, rastgele bir değişkeni sırasındaki değerinin eşit olması için 3 koşula ihtiyacımız var:NXx
  1. i1 altındaki değerleri , bu her gözlem için olasılığına sahiptir , burada , rastgele X değişkeninin .xFX(x)FX(x)=Pr(X<x)
  2. Ni üzerindeki değerleri , bu olasılık olasılığına sahiptirx1FX(x)
  3. İhtiva eden aralık sonsuz küçük içinde 1 değeri , bu olasılık vardır burada olan rastgele değişkeninin PDF'sixfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Vardır Elimizdeki bu yüzden, bu seçimi yapmak için yollar:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

Orijinal yazımda EDIT , bu noktadan daha ileriye gitme konusunda çok zayıf bir girişimde bulundum ve aşağıdaki yorumlar bunu yansıtıyor. Bunu aşağıda düzeltmeye çalıştım

Bu pdf'nin ortalama değerini alırsak şunları alırız:

E(Xi)=xifi(xi)dxi

Ve bu integralde, değişkenini (@ henry'nin ipucunu alarak aşağıdaki değişikliği yaparız ve integral olur:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Dolayısıyla, bu, aşağıdakileri yapmak için delta yöntemi kullanılarak iyi bir şekilde yaklaştırılabilen ters CDF'nin beklenen değeridir:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

Daha iyi bir yaklaşım elde etmek için 2. dereceye kadar genişleyebiliriz (asal farklılaşmayı ifade eder) ve bir tersinin ikinci türevinin:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Let . O zaman biz var:νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Şimdi, normal dava için uzmanlaşmış

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Not bu Ve beklenti yaklaşık olarak olur:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

Ve sonunda:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

@Whuber'ın belirttiği gibi, bu kuyruklarda doğru olmayacak. Aslında, farklı parametrelerle bir beta eğriliği nedeniyle, daha kötü olabileceğini düşünüyorum


1
" Rastgele değişkenin maksimum olabilirlik tahmincisi "? Bunun ne olduğundan emin değilim, ama sanırım modu (neredeyse) hesapladın .
kardinal

1
Gizemli bir şey, birdenbire ve herhangi bir uyarı veya tanım olmadan göründüğünde , yolun üçte ikisinde meydana gelir . μσ
whuber

2
"Kazık" demek istemem ama parantez içindeki miktarın negatif bir sayıya nasıl yaklaştığını görmek benim için zor.
kardinal

1
hesap düzeyinde, öyle denebilir ederken @probabilityislogic, bu durumda iki değişkenli fonksiyon düşünüyoruz ve sadece onun yerine başka biri değişken üzerinde maksimize ben, matematiksel istatistik nedeni vardır düşünüyorum ve pedagojik değil ne diye hitap etmek "maksimum olabilirlik tahmini" yaptım. Bu alanda numaralandırmak için çok fazla sayılıyorlar, ancak yeterince zor olduğunu düşündüğüm basit bir şey, istatistiklerden bir nedenden ötürü özel, gizli bir kelime kullanıyoruz. Tek bir sorun için bir heves (ler) ... / ... yanlış anlama yol açtığına değiştirme
kardinal

2
Cevaplanan cevap için @probabilityislogic (+1). Bir öneri, belki de "ima" anlamına gelmek daha iyidir . Bazı yakınsama iddialarında bulunmadığınızı farketmeniz birkaç saniye boyunca izlendi.
kardinal,

13

Aniko'nun cevabı, Blom'un seçimi içeren iyi bilinen formülüne dayanıyor . Bu formülün kendisi, G. Elfving (1947), normal bir popülasyondan örneklerdeki aralığın asimptotik dağılımı , Biometrika, Vol. 34, sf. 111-119. Elfving'in formülü, doğru alfa seçiminin olduğu numunenin minimum ve maksimumunu hedefler . Blom formül sonuçları ne zaman yaklaşır tarafından .α=3/8π/8π3

Blom'un yaklaşımı yerine Elfving formülünü kullanarak -2.744165 çarpanını alıyoruz. Bu sayı, Erik P.'nin kesin cevabına (-2.746) ve Monte Carlo yaklaşımına (-2.75), Blom'un yaklaşımına (-2.73) göre olduğundan daha yakındır;


Elfving'den (1947) nasıl geldiğine dair biraz daha ayrıntılı bilgi verebilir misiniz? Makalede açık değil. α=π/8
Anthony,

1
Anthony - Bar, Samuel Wilks tarafından yayınlanan Matematiksel İstatistik ders kitabına güveniyorum. Wiley (1962). Egzersiz 8.21, s. 249 belirtiyorsa: "x_ (1), x_ (n), sürekli bir cdf F (x) 'den n büyüklüğünde bir numunenin en küçük ve en büyük sıra istatistikleri ise, 2n * sqrt rasgele değişkeni {[F (x_ ( 1))] [1-F (x_ (n))]}, ortalama pi / 2 ve varyans 4- (pi ^ 2) / 4 olan n -> sonsuz olarak bir sınır dağılımına sahiptir. " (Üzgünüz, biçimlendirme kodunu bilmiyorum!) Simetrik bir dağılım için, F (x_ (1)) = 1-F (x_ (n)). Böylece F (x_ (n)) yaklaşık pi / (4n) 'dir, veya x_ (n) yaklaşık F ^ (-1) (pi / (4n))' dir. Blom formülü, 3 / (4n) yaklaşımını kullanır.
Hal M. Switkay

Bu bana Indiana Eyalet Yasama Meclisine atfedilen Infamous " " faturasını hatırlatıyor . ( Wikipedia makalesi , hikayenin popüler versiyonunun doğru olmadığını π=3
öne sürmesine rağmen

7

Ne yapmak istediğinize bağlı olarak, bu cevap yardımcı olabilir veya olmayabilir - Maple'nın İstatistik paketinden aşağıdaki formülü aldım .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

Tek başına bu çok kullanışlı değildir (ve muhtemelen rastgele değişkenlerin minimum olması nedeniyle elle kolayca elde edilebilir ), ancak verilen değerleri için çok daha doğru olan değerler için hızlı ve çok doğru bir yaklaşım için izin verir. Monte Carlo:nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

sırasıyla -2.746042447 ve -2.746042447451154492412344’ü verir.

(Tam açıklama - Bu paketi saklıyorum.)


1
@ProbabilityIsLogic bu integrali cevabının ilk yarısındaki tüm sipariş istatistikleri için elde etti.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.