Ağır kuyruklu dağılımların sıralama istatistiklerinin asimptotik normallikleri


9

Arka plan: Ağır kuyruklu bir dağılımla modellemek istediğim bir örnek var. Gözlemlerin yayılması nispeten büyük olacak şekilde bazı aşırı değerlerim var. Benim fikrim bunu genel bir Pareto dağılımı ile modellemekti ve ben de yaptım. Şimdi, ampirik verilerimin 0.975 kantili (yaklaşık 100 veri noktası) verilerime taktığım Genelleştirilmiş Pareto dağılımının 0.975 kantilinden daha düşük. Şimdi, bu farkın endişelenecek bir şey olup olmadığını kontrol etmenin bir yolu var mı diye düşündüm.

Kuantillerin asimptotik dağılımının şu şekilde verildiğini biliyoruz:

kantillerin asimptotik normallikleri

Bu nedenle, verilerimin uyumundan elde ettiğim parametrelerle aynı parametrelerle 0.975 kantil genelleştirilmiş Pareto dağılımının etrafında% 95 güven bandını çizmeye çalışarak merakımı eğlendirmenin iyi bir fikir olacağını düşündüm.

GPD

Gördüğünüz gibi, burada bazı aşırı değerlerle çalışıyoruz. Ve yayılma çok büyük olduğundan, yoğunluk fonksiyonu son derece küçük değerlere sahiptir, bu da güven bantlarını yukarıdaki asimtotik normallik formülünün varyansını kullanarak sırasına getirir:±1012

±1.960.975*0.025n(fG,PD(q0.975))2

Yani, bu bir anlam ifade etmiyor. Sadece olumlu sonuçlara sahip bir dağılımım var ve güven aralıkları negatif değerler içeriyor. Yani burada bir şeyler oluyor. Bantları 0,5 kantil civarında hesaplarsam, bantlar o kadar büyük değil , yine de çok büyüktür.

Bunun başka bir dağıtımla, yani dağıtımı ile nasıl gittiğini görmeye devam ediyorum . Bir dağılımından gözlemi simüle edin ve niceliklerin güven bantları içinde olup olmadığını kontrol edin. Güven bantları içindeki simüle edilmiş gözlemlerin 0.975 / 0.5 miktarlarının oranlarını görmek için bunu 10000 kez yapıyorum.N-(1,1)n=100N-(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

EDIT : Ben kodu sabit, ve her iki quantiles n = 100 ve ile yaklaşık% 95 isabet verir . Eğer standart sapmayı getirirsem , bantlar içinde çok az isabet olur. Yani soru hala duruyor.σ=1σ=2

EDIT2 : Yararlı bir beyefendi tarafından yapılan yorumlarda belirtildiği gibi yukarıdaki ilk EDIT'te iddia ettiğim şeyi geri çekiyorum . Aslında bu CI'ler normal dağılım için iyi görünüyor.

Belli bir aday dağılımı göz önüne alındığında, gözlemlenen bir miktar kantilin mümkün olup olmadığını kontrol etmek istiyorsa, sipariş istatistiğindeki bu asimtotik normallik sadece çok kötü bir önlem midir?

Sezgisel olarak, bana göre, dağılımın varyansı (birinin veri yarattığını düşünen veya R örneğimde, veri yarattığını bildiğimiz) ve gözlem sayısı arasında bir ilişki var gibi görünüyor. 1000 gözleminiz ve muazzam bir varyansınız varsa, bu gruplar kötüdür. Eğer bir kişinin 1000 gözlemi ve küçük bir varyansı varsa, bu gruplar belki mantıklı olur.

Bunu benim için temizlemek isteyen var mı?


2
Bandınız asimptotik normal dağılımın varyansına dayanmaktadır, ancak asimptotik normal dağılımın standart sapmasına dayanmalıdır (bant = 1.96 * sqrt ((0.975 * 0.025) / (100 * (f_norm) ^ 2)), ve benzer şekilde genelleştirilmiş Pareto dist'n için.) Bunun yerine deneyin ve neler olduğunu görün.
jbowman

@jbowman bunu gösterdiğin için teşekkürler! Ben tamir ederim!
Erosennin

@jbowman, grubu daha küçük yapar ve R kodu ile örnekte aslında daha az isabet verir. Hesaplamayı yanlış yapan başka bir hataydı, ama şimdi düzelttim. Beni buna yönlendirdin, bu yüzden çok minnettarım! GSYİH söz konusu olduğunda daha küçük gruplar çok iyi bir haber, ama korkarım ki bu kadar muazzamlar ki kullanmaları imkansız. Hala örneklem büyüklüğü ve varyansı, sadece örneklem büyüklüğü değil, büyük olması gereken şeyden başka bir paket göremiyorum.
Erosennin

Telaşa gerek yok! Doğru bir şekilde(n)ilk formülünüzün önünde; her iki tarafı da bu şekilde bölerseniz band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2)), bu yardımcı olabilir. Üzgünüm bunu ilk kez özledim. (Belki de bunu düzelttiniz ancak sorunun ilgili bölümlerini güncellemediniz.)
jbowman

1
Evet, dikkat etmedim. OTOH, kodunuzu çalıştırdığımda, her yerde sd = 1'i sd = 2 olarak değiştirdiğimde, her iki seferde neredeyse aynı isabet oranını 0.975 kantilde elde ediyorum: 0.9683 ve 0.9662. Acaba bir yerde bir sd = 1 kaçırdı mıσ=2Çalıştırmak?
jbowman

Yanıtlar:


3

Türetmenizin bu sayfadaki gibi bir şeyden geldiğini varsayıyorum .

Sadece olumlu sonuçlara sahip bir dağılımım var ve güven aralıkları negatif değerler içeriyor.

Peki, mantıklı olan normal yaklaşım verildiğinde. Negatif değerler vermekten normal bir yaklaşımı durduran hiçbir şey yoktur, bu yüzden örnek boyutu küçük ve / veya varyans büyük olduğunda sınırlı bir değer için kötü bir yaklaşımdır. Örnek boyutunu arttırırsanız, örnek boyutu aralığın genişliği için ifadenin paydasında olduğundan aralıklar küçülür. Varyans probleme yoğunluk yoluyla girer: aynı ortalama için, daha yüksek bir varyansın farklı bir yoğunluğu, kenar boşluklarında daha yüksek ve merkezin yakınında daha düşük olacaktır. Düşük yoğunluk daha geniş bir güven aralığı anlamına gelir çünkü yoğunluk ifadenin paydasındadır.

Bu sayfa , diğerlerinin yanı sıra, güven sınırlarını oluşturmak için binom dağılımına normal yaklaşımı kullanan bir miktar googling buldu . Temel fikir, her gözlemin olasılık q ile kantilinin altına düşmesi , böylece dağılımın binom olmasıdır. Numune boyutu yeterince büyük olduğunda (bu önemlidir), binom dağılımı ortalama ile normal bir dağılım ile iyi yaklaşır.nq ve varyans nq(1-q). Böylece, düşük güven sınırının endeksi olacaktırj=nq-1.96nq(1-q)ve üst güven sınırının endeksi olacaktır k=nq-1.96nq(1-q). Bir ihtimal dek>n veya j<1kenara yakın miktarlarda çalışırken ve bulduğum referans bu konuda sessizdir. Maksimum veya minimum değerleri sadece ilgili değer olarak değerlendirmeyi seçtim.

Kodunuzun tekrar yazılmasında ampirik veriler üzerinde güven sınırını oluşturdum ve teorik kantilin bunun içine girip girmediğini test ettim. Bu benim için daha mantıklı, çünkü gözlenen veri kümesinin kantili rastgele değişkendir. N> 1000 kapsamı ~ 0.95'tir. N = 100 için, 0.85'te daha kötüdür, ancak bu, küçük numune boyutlarına sahip kuyrukların yakınındaki kantillerde beklenir.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

Hangi örneklem büyüklüğünün "yeterince büyük" olduğunu belirlerken, daha büyük daha iyidir. Belirli bir örneğin "yeterince büyük" olup olmadığı, eldeki probleme ve güven sınırlarınızın kapsamı gibi şeyler hakkında ne kadar telaşlı olduğunuza bağlıdır.


Katkıda bulunduğunuz için teşekkür ederiz! Herhangi bir mutlak "büyük" örnek olduğunu nasıl görmediğimi ve varyansı hesaba katmak gerektiğini belirttim. Bunun CI'leri inşa etme yöntemimle nasıl bir ilgisi olduğunu merak ediyorum, ama aynı zamanda genel olarak. Türetme ile ilgili olarak, örneğin buraya bakabilirsiniz : math.mcgill.ca/~dstephens/OldCourses/556-2006/… İnşa ettiğim CI'ler bu bağlantıdaki örnekten sonra geliyor. "Ampirik veriler için güven sınırını oluşturdum ..." yazıyorsunuz ve bu sizin için daha anlamlı. CI'larımın bu irtifası hakkında biraz daha ayrıntı verebilir misiniz?
Erosennin

Ah, evet, doğru türetme bağlantınız vardı. Üzgünüm benim hatam.
Erosennin

Tamam, dağıtımın varyansının kullandığınız yaklaşımı nasıl etkilediğini ve "büyük" bir örneklemin ne anlama geldiğini biraz daha tartışmak için tekrar düzenledim. CI'niz teorik değere odaklanırken, benimki ampirik olana odaklanır. Ampirik bir kantil ile teorik bir karşılaştırmayı karşılaştırmak için aralıkların ampirik kantil üzerine inşa edilmesi gerektiğini düşünüyorum. Ayrıca kullandığım yaklaşım, daha az bir "normal" yaklaşım yapar, çünkü merkezi limit teoreminin başlamasına itiraz yoktur.
atiretoo - reinstate monica

Bu çabayı takdir ediyorum, belki sorum daha açık olabilir. Yoğunluğun ve örneklem büyüklüğünün varyansı nasıl etkilediğini zaten fark ettim, bu ilk başta benim açımdan. Ama yine, kötüm, daha açık olabilirdim. Bu, varyansı dikkate alan bir şeyle değiştirilmeyi düşündüğüm "asimtotik" tir. Ayrıca, CI'lerinizi teorik değerler etrafında ortaladınız. n * q tam olarak sizin teorik değerinizdir. Gruplarınızı kurarken, aslında aynı şeyi sadece farklı bir yöntemle yaptınız.
Erosennin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.