Tahmini sipariş istatistikleriyle yüzdelik dilime yakınsamaları göster


10

Let X1,X2,...,X3n , bir örneklenmiş Rasgele değişkenlerin bir dizisi alfa sabit dağılımı parametreleri ile, α=1.5,β=0,c=1.0,μ=1.0 .

Şimdi dizisini düşünün Y1,Y2,...,Yn, burada Yj+1=X3j+1X3j+2X3j+3-1 , j=0,,n1 .

0.01 yüzdelik değeri tahmin etmek istiyorum .

Benim fikrim bir çeşit Monte-Carlo simülasyonu yapmak:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

Tüm ortalama çağrılması örnek 0.01 Yüzdelik olmaya bilgisayarlı μ nμ^n ve bunların varyans σ , uygun güven aralığını hesaplamak için u ben başvurmak, Merkezi Limit Teoremi Güçlü formda :σ^n2μ

Let ile Rasgele değişkenlerin bir dizisi E [ X- i ] = μ ve 0 < V [ X- i ] = σ 2 < . Numunenin ortalamasını belirleyin ^ ı , n = ( 1 / n ) Σ n i = 1 X i . Daha sonra, ( μ N - μ ) /X1,X2,E[Xi]=μ0<V[Xi]=σ2<μ^n=(1/n)i=1nXi sınırlayıcı bir standart normal dağılım, yani var μ N -μ(μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

ve Slutksy teoremi sonucuna

nμ^n-μσ^n2nN-(0,1).

Daha sonra, bir -confidence aralığı için u olan(1-α)x100%μ

buradaz1-a/2,standart normal dağılımın(1-a/2)kantilidir.

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
z1α/2(1α/2)

Sorular:

1) Yaklaşımım doğru mu? CLT uygulamasını nasıl gerekçelendirebilirim? Yani, varyansın sonlu olduğunu nasıl gösterebilirim? ( varyansına bakmak zorunda mıyım? Çünkü bunun sınırlı olduğunu düşünmüyorum ...)Yj

2) nasıl numunenin bütün ortalama olduğunu gösterebilir Yüzdelik gerçek değeri yakınlaşıyor bilgisayarlı 0.01 - yüzdelik? (Sipariş istatistiklerini kullanmalıyım ama nasıl ilerleyeceğimden emin değilim; referanslar takdir ediliyor.)0.010.01


3
Stats.stackexchange.com/questions/45124 adresindeki örnek medyanlara uygulanan tüm yöntemler diğer persantiller için de geçerlidir. Aslında, sorunuz bu soru ile aynıdır, ancak yalnızca 50. persentili 1. (veya belki 0.01?) Persentil ile değiştirir.
whuber

@whuber, bu soruya verdiğiniz yanıt son derece iyi. Bununla birlikte, Glen_b görevinin sonunda (kabul edilen cevap), yaklaşık normallik "aşırı kantiller için geçerli değildir, çünkü CLT orada tekme atmaz (Z'lerin ortalaması asemptotik olarak normal olmayacaktır) "Aşırı değerler için farklı teoriye ihtiyacınız var" + + msgid ". Bu ifade hakkında ne kadar endişelenmeliyim?
Maya

2
O gerçekten ortalama aşırı vermedi inanıyoruz quantiles , ama sadece kendileri. (Aslında, aynı cümlenin sonundaki atlamayı düzeltti ve onlara "aşırı değerler" olarak atıfta bulundu.) Ayrım, .01 persentil ( dağıtım), sınırda, stabilize olacaktır çünkü bir numunedeki giderek daha fazla veri hala altına düşecek ve daha fazla ve bu yüzdelik değerin üzerine düşecektir. Artık böyle bir aşırı (maksimum veya minimum gibi) ile.
whuber

Bu genel olarak ampirik süreç teorisi kullanılarak çözülmesi gereken bir sorundur. Eğitim seviyenizle ilgili bazı yardımlar faydalı olacaktır.
AdamO

Yanıtlar:


2

varyansı sonlu değildir. Y Bir alfa-kararlı değişken olmasıdır ile α = 3 / 2 (a Holtzmark dağılımı ) sınırlı bir beklenti var ^ ı ancak varyans sonsuzdur. Eğer Y sonlu varyans vardı σ 2 bağımsızlığını istismar ederek daha sonra, X i ve biz hesaplayabilirdi Varyans tanımınıXα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

Bu kübik denklem en az bir gerçek çözümü vardır (ve en fazla üç çözümleri, ama artık kadar), ima Var ( X ) sonlu olacak - ama değil. Bu çelişki iddiayı ispatlamaktadır.Var(X)Var(X)


İkinci soruya bakalım.

Herhangi bir örnek kantil, örnek büyüdükçe gerçek kantil ile birleşir. Sonraki birkaç paragraf bu genel noktayı ispatlamaktadır.

İlişkili olasılığı (veya 0 ile 1 arasında başka bir değer hariç) olsun. Yazın F , böylece dağılım fonksiyonu için Z q = F - 1 ( q ) bir q- inci bir dağılım.q=0.0101FZq=F1(q)qth

Tüm varsaymamız gereken, (kuantil fonksiyon) sürekli olduğudur. Bu güvence veriyor bize biri için yapılacak £ değerinin > 0 olasılıkları vardır q - < q ve q + > q kendisi içinF1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

ve olarak [ q - , q + ] aralığının sınırı { q } ' dır .ϵ0[q,q+]{q}

boyutunda herhangi bir iid örneği düşünün . Daha az olan, bu örneğin elemanların sayısı , Z q - bir binom sahiptir ( q - , n ) her bir elemanı, bağımsız bir şekilde, bir şans olduğundan, dağıtım q - daha az olma ZnZq(q,n)q . Merkezi Limit Teoremi (! Olağan bir) yeterince büyük için iman, az elemanların sayısıZ q - ortalama bir normal dağılım verilirnq-ve varyansnqZqnZqnqnedenle keyfi olarak (keyfi olarak iyi bir yaklaşımla). Standart Normal dağılımın CDF'si Φ olsun . Bu miktarın n q değerini aşma şansınq(1q)Φnq

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

Çünkü sağ taraftaki argümanı sabit bir katΦ , o kadar keyfi büyük büyürnbüyür. YanaΦbir CDF olup, değeri yakın keyfi yaklaşımlar1nnΦ1 , bu olasılık sınır değeri sıfırdır gösteren.

Kelimelerle: sınırda, örnek elemanların Z q - ' dan daha az olmadığı neredeyse kesindir . Benzer bir argüman , örnek elemanların n q'nun Z q + ' dan daha büyük olmadığı neredeyse kesin olarak kanıtlanmıştır.nqZqnqZq+ . Birlikte, bu anlamına q yeterince büyük bir örnek quantile arasında uzanacak şekilde son derece olasıdır Z q - £ değerinin ve Z, q + ε .qZqϵZq+ϵ

Simülasyonun işe yarayacağını bilmek için tek ihtiyacımız olan bu. İstediğiniz herhangi bir doğruluk derecesini ve güven seviyesi 1 - α'yı seçebilir ve yeterince büyük bir örneklem büyüklüğü nϵ1αn en yakın, sıra istatistiği o numunedeki şansı en az olacak 1 - a dahilinde olma £ değerinin arasında gerçek kantil Z q .nq1αϵZq


Bir simülasyonun işe yarayacağını tespit ettikten sonra gerisi kolaydır. Güven limitleri Binom dağılımı limitlerinden elde edilebilir ve sonra geri dönüştürülebilir. Daha fazla açıklama ( kantil için, ancak tüm kantillere genelleme için) örnek medyanlar için Merkezi limit teoremindeki cevaplarda bulunabilir .q=0.50

Şekil: 1000 yineleme için 0.01 = Y değerinin n = 300 histogramı

arasında quantileq=0.01 negatiftir. Örnekleme dağılımı oldukça çarpıktır. Çarpıklığı azaltmak için, bu şekil, n = 300 Y değerinde1.000 simüle edilmiş numuneninnegatiflerinin logaritmalarınınbir histogramını göstermektedir.Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.