Aralık ve standart sapma arasındaki ilişki


14

Bir makalede örnek boyutunun standart sapması için formül buldumN

σ=R¯2.534

burada , ana örnekten ortalama alt örnek aralığıdır (boyut ). sayısı nasıl hesaplanır? Bu doğru sayı mı? 62.534R¯62.534


6
Referanslar lütfen. Daha da önemlisi: 1. Çektiğiniz dağıtım türünden bağımsız olarak burada "doğru bir sayı" olamaz. 2. Bu kurallar genellikle SD'yi aralıktan tahmin etmenin kısa yol yöntemlerine ilgi gösterir. Şimdi bilgisayarlarımız var .... Bunu yapmak istiyor musunuz ve neden? Neden sadece verileri kullanmıyorsunuz?
Nick Cox

3
@Nick Üzgünüm: haklıydın. Örnek boyutu ila civarında olduğunda standart sapma için civarındaki bir değer çalışır ; , civarında örnek boyutları için çalışır , vb önceki yorumumu silerim, bu yüzden kendimden başka kimseyi karıştırmaz! 450 3 101550310
whuber

1
@NickCox eski Rus kaynağı ve daha önce formülü görmedim.
Andy

3
Referans vermek nadiren kötü bir fikirdir. Okuyucuların ilginç veya erişilebilir olup olmadıklarına kendileri karar vermesine izin verin. (Örneğin, Rusça okuyabilen çok sayıda insan var.)
Nick Cox

Yanıtlar:


17

Pdf ile bir dağılımından bağımsız değerlerden oluşan bir örnekte , ve uçlarının ortak dağılımının pdf'si ile orantılıxnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(Orantılılık sabiti, çok terimli katsayı . Sezgisel olarak, bu ortak PDF, aralıktaki en küçük değeri bulma şansını ifade eder. , aralığındaki en büyük değer ve aralarındaki orta değerleri aralığındadır . Tüm sürekli olduğu için, ile bu orta aralığı yerini alabilir ve böylece olasılık sadece bir "sonsuz" miktarı ihmal. İlişkili olasılıklar, diferansiyel birinci derecede, olan(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n2[x[1]+dx[1],x[n])F(x[1],x[n]]f(x[1])dx[1], f(x[n])dx[n],ve , şimdi formülün nereden geldiğini açıkça ortaya koyuyor.)F(x[n])F(x[1]),

aralığında beklenti almak, standart sapma ve ile Normal dağılım için verir . katları olarak beklenen aralık , numune boyutuna bağlıdır :x[n]x[1]2.53441 σσn=6σn

Normal

Bu değerler, sayısal entegrasyonu ile hesaplanamaz edildi üzerinde , standart Normal CDF'ye ayarlanmış ve standart sapmasına bölünmüştür (sadece ).(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

Beklenen aralık ile standart sapma arasında benzer bir çarpımsal ilişki, herhangi bir konum ölçeğinde dağılım ailesi için geçerli olacaktır, çünkü bu sadece dağıtım şeklinin bir özelliğidir . Örneğin, düzgün dağılımlar için karşılaştırılabilir bir grafik:

üniforma

ve üstel dağılımlar:

Üstel

Önceki iki grafikteki değerler , her durumda ve nispeten basit cebirsel formları nedeniyle mümkün olan tam - sayısal değil - entegrasyon ile elde edilmiştir . Homojen dağılımlar için bunların eşit ve üstel dağılımlar için bunlar burada Euler sabitidir ve "poligamma" işlevidir, Euler Gamma işlevinin logaritmik türevidir.fFn1(n+1)12γ+ψ(n)=γ+Γ(n)Γ(n)γψ

(Bu dağılımlar şekillerin bir geniş ekran için) bu farklı olmasına rağmen, üç kabaca yaklaşık kabul çarpanı gösteren, şekline büyük ölçüde bağlı değildir ve bu yüzden, bir otobüs, standart sapma sağlam değerlendirme olarak görev yapabilir küçük alt numunelerin aralıkları bilindiğinde. (Gerçekten de, üç serbestlik derecesine sahip çok ağır kuyruklu Student dağılımının , çok uzak olmayan için civarında bir çarpanı var .)n=62.5t2.3n=62.5


6
Harika sergi! Bunun 1920'lerde araştırıldığını bilmek isteyebilirsiniz. Bkz. Tippet 1925 . Tippet'in tablolarında (Tablo X) 6 büyüklüğünde bir örnek verilen aralık için beklenen değer . Normal dağılım için aralığın tam dağılımının türetilmesini gösterir. Bu David ve ark. (1954) normallik testi için aralık dağılımının olasılık noktalarını hesaplamak için (bakınız D'Agostino ve Stephens 9.3.3.4.2). 2.53441σ
Avraham

@Avraham Aydınlatıcı yorumlar için teşekkür ederim. Grafikleri eklediğimde beni etkileyen şey, tüm bu yaklaşımın gerçekten akıllı kısmının, altı büyüklükteki alt örneklerin kullanılmasıdır, çünkü bu, dağıtım şeklinden bağımsız olarak çarpanların hepsi aynı olma eğilimindedir.
whuber

Teşekkürler! Tippet'in tabloları aslında 2 ile 1000 arasındaki tüm sayılar için uygun çarpanı verir. Tabii ki, bu ENIAC'dan 20 yıl önce 1925'te idi.
Avraham

@whuber (2.534) sayısının nasıl hesaplandığını gösterebilir misiniz?
Andy

Cevabı, hesaplamaların açıklamalarını içerecek şekilde düzenledim.
whuber

4

Bu yaklaşım, gerçek örnek standart sapmasına çok yakındır. Bunu göstermek için hızlı bir R betiği yazdım:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

hangi verir:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Şimdi bunun neden işe yaradığından emin değilim (ama en azından (yüz değerinde) yaklaşımın iyi olduğu anlaşılıyor.

Düzenleme: Bunun neden işe yaradığına dair @ Whuber'ın olağanüstü yorumuna (yukarıda) bakın


1
Yaklaşık olarak eşit bir dağılımdan boyutlu alt örnekler çiziyorsunuz . Gerçekten tekdüze bir dağılım için oran . Eğer simülasyonunuzda bu faktörü kullanacak , çok yakın olan eşit olurdu . 6103/72.474mean(R)/2.4742887.6sd(x)
whuber

Çok doğru! > mean(R)/2.474 [1] 2887.611
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.