Merkezi limit teoremi için büyük örneklem büyüklüğünün gerekli olduğu dağıtım örneği


19

Bazı kitaplar, merkezi sınır teoreminin için iyi bir yaklaşım sağlayabilmesi için 30 veya daha büyük bir örneklem boyutunun gerekli olduğunu belirtir . X¯

Bunun tüm dağıtımlar için yeterli olmadığını biliyorum.

Büyük örneklem büyüklüğünde (belki 100 veya 1000 veya daha yüksek) bile, örnek ortalamanın dağılımının hala oldukça çarpık olduğu bazı dağılım örneklerini görmek istiyorum.

Daha önce bu tür örnekleri gördüğümü biliyorum, ama nerede olduğunu hatırlayamıyorum ve onları bulamıyorum.


5
şekil parametresiyle bir Gama dağılımı düşünün . Ölçeği 1 olarak al (önemli değil). Diyelim ki Gamma'yı ( α 0 , 1 ) sadece "yeterince normal" olarak görüyorsunuz . Daha sonra yeterince normal 1000 gözlem için gereken bir dağılımı, bir Gamma ( α 0 / 1000 , 1 ) dağılımı. αGamma(α0,1)Gamma(α0/1000,1)
Glen_b-Monica

1
@ Glen_b, neden bunu resmi bir cevap haline getirip biraz geliştirmeyesiniz?
gung - Monica'yı eski durumuna getirin

4
Yeterince kontamine olmuş dağılımlar, @ Glen_b'nin örneğiyle aynı satırlar boyunca çalışacaktır. Örneğin , temeldeki dağılım Normal (0,1) ve Normal (büyük değer, 1) karışımı olduğunda, ikincisi sadece küçük bir görünme olasılığına sahip olduğunda, ilginç şeyler olur: (1) çoğu zaman , kontaminasyon görünmez ve çarpıklık kanıtı yoktur; ancak (2) bazen kontaminasyon ortaya çıkar ve örnekteki çarpıklık muazzamdır. Örnek ortalamanın dağılımı ne olursa olsun oldukça eğri olacaktır, ancak önyükleme ( örneğin ) genellikle bunu tespit etmeyecektir.
whuber

1
@ whuber örneği, teorik olarak, merkezi sınır teoreminin keyfi olarak yanıltıcı olabileceğini göstermektedir. Pratik deneylerde, insanın kendine çok nadiren meydana gelen büyük bir etki olup olmadığını sorması ve teorik sonucu biraz ihtiyatlı bir şekilde uygulaması gerektiğini varsayalım.
David Epstein

Yanıtlar:


19

Bazı kitaplar, merkezi limit teoreminin için iyi bir yaklaşım vermesi için 30 veya daha büyük bir örneklem büyüklüğünün gerekli olduğunu belirtir .X¯

Bu ortak kural, neredeyse tamamen işe yaramaz. N = 2'nin iyi olacağı normal olmayan dağılımlar ve çok daha büyük yetersiz olduğu normal olmayan dağılımlar vardır - bu nedenle, koşullar üzerinde açık bir kısıtlama olmaksızın kural yanıltıcıdır. Her halükarda, bu doğru olsa bile, gerekli n yaptığınız şeye bağlı olarak değişir. Genellikle küçük n'de dağılımın merkezine yakın iyi yaklaşımlar elde edersiniz , ancak kuyrukta iyi bir yaklaşım elde etmek için çok daha büyük n'ye ihtiyacınız vardır .nnnn

Düzenleme: Bu konuyla ilgili çok sayıda ama görünüşte oybirliğiyle ilgili fikirler ve bazı iyi bağlantılar için bu sorunun yanıtlarına bakın . Yine de bunu açıkça anlayamayacağınız için, bu konuda emek vermeyeceğim.

Büyük örneklem büyüklüğünde (belki 100 veya 1000 veya daha yüksek) bile olsa, örnek ortalamasının dağılımının hala oldukça çarpık olduğu bazı dağılım örneklerini görmek istiyorum.

Örneklerin oluşturulması nispeten kolaydır; kolay bir yol sonsuz bölünebilir bulmaktır normal olmayan dağılım ve bölmektir. Ortaladığınız veya özetlediğinizde normale yaklaşacak biriniz varsa, 'normale yakın' sınırından başlayın ve istediğiniz kadar bölün. Yani mesela:

şekil parametresiyle bir Gama dağılımı düşünün . Ölçeği 1 olarak kabul edin (ölçek önemli değil). Diyelim ki Gamma'yı ( α 0 , 1 ) sadece "yeterince normal" olarak görüyorsunuz . Daha sonra yeterince normal 1000 gözlem için gereken bir dağılımı, bir Gamma ( α 0 / 1000 , 1 ) dağılımı.αGamma(α0,1)Gamma(α0/1000,1)

Eğer olan bir Gama'nın 'yeterince normal' olduğunu düşünüyorsanız -α=20

Gama (20) pdf

Daha sonra bölme 1000 ile, elde etmek için α = 0.02 :α=20α=0.02

Gama (0.02) pdf

Bunların ortalama 1000'i ilk pdf şeklindedir (ancak ölçeği değil).

σ/n

@ kirlenmiş dağılımlar hakkındaki düşüncesi çok iyi; bu durumla bazı simülasyonları denemek ve bu tür birçok örnekte işlerin nasıl davrandığını görmek için ödeme yapabilir.


12

σσtχ2ttn=30s2X¯


2
s2

9

Bu makaleyi yararlı bulabilirsiniz (veya en azından ilginç):

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

UMass'taki araştırmacılar aslında sorduğunuza benzer bir çalışma yürüttüler. Belirli dağıtılmış veriler hangi örnek boyutunda CLT nedeniyle normal bir dağılım izler? Görünüşe göre psikoloji deneyleri için toplanan pek çok veri normal dağılıma yakın bir yerde değildir, bu nedenle disiplin istatistiklerinde herhangi bir çıkarım yapmak için oldukça fazla CLT'ye dayanmaktadır.

α=0.05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

Garip bir şekilde, normal olarak dağıtılan verilerin yüzde 65'i örneklem büyüklüğü 20 ile reddedildi ve örneklem büyüklüğü 30 olsa bile,% 35'i hala reddedildi.

Daha sonra Fleishman'ın güç yöntemi kullanılarak oluşturulan birkaç ağır çarpık dağılımı test ettiler:

Y=birX+bX2+cX3+dX4

X normal dağılımdan çizilen değeri temsil ederken, a, b, c ve d sabittir (a = -c olduğuna dikkat edin).

Testleri 300'e kadar numune boyutlarında gerçekleştirdiler

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

En yüksek çarpıklık ve kurt (1.75 ve 3.75) seviyelerinde 300'lük örnek büyüklüğünün normal dağılım izleyen örnek araçlar üretmediğini bulmuşlardır.

Ne yazık ki, tam olarak aradığınız şey olduğunu sanmıyorum, ama tökezledim ve ilginç buldum ve siz de yapabileceğinizi düşündüm.


4
" Garip bir şekilde, normal olarak dağıtılan verilerin yüzde 65'i 20'lik bir örneklem büyüklüğü ile reddedildi ve 30'luk bir örneklem büyüklüğü ile bile reddedildi.% 35'i hala reddedildi. " tamamen belirtilen normal verilerdeki (testin ne için olduğu) bir normallik testi olarak, doğru kullanıyorlarsa, kesin olmalıdır .
Glen_b-Monica

5
@Glen_b: Burada birden fazla olası hata kaynağı var. Belgeyi okursanız, burada "normal" olarak listelenen şeyin aslında normal rasgele olduğunu ve ortalama 50 ve standart sapmanın en yakın tamsayıya yuvarlanmış olarak değiştiğini göreceksiniz . Yani, bu anlamda, kullanılan test zaten yanlış bir dağıtım kullanıyor. İkincisi, yine de testleri yanlış yaptıkları görülüyor, çünkü çoğaltma girişimlerim bu tür 20 gözlem kullanan bir örnek ortalama için ret olasılığının yaklaşık% 27 olduğunu gösteriyor. (devam)
kardinal

5
Üçüncü olarak, yukarıdakilere bakılmaksızın, bazı yazılımlar asıl olanı değil , asimptotik dağılımı kullanabilir , ancak 10K'lık örnek boyutlarında bu çok fazla önemli olmamalıdır (verilerde yapay olarak bağlanmadıysa). Son olarak, bu belgenin sonuna doğru aşağıdaki oldukça garip ifadeyi buluyoruz: Maalesef, S-PLUS'taki KS testinin çalışması işi sınırlandırıyor. Mevcut çalışma için p-değerlerinin hepsi çoklu kopyalar üzerinde elle derlenmiştir. P-değerlerini hesaplamak ve seçilen alfa seviyesine kıyasla bunlar hakkında bir karar vermek için bir program gereklidir.
kardinal

3
Merhaba @Glen_b. Yuvarlamanın burada reddetme oranını azaltacağına inanmıyorum çünkü yuvarlak verileri kullanarak gerçek standart normal dağılıma karşı test ettiklerine inanıyorum (testin yanlış tanımlanmış bir dağıtım kullandığını söyleyerek kastediyorum). (Belki de bunun yerine, KS testini ayrık bir dağılımda kullanmayı düşünüyordunuz.) KS testi için örnek büyüklüğü 20 değil 10000 idi; tabloyu elde etmek için her biri 10000 boyutunda 20 replikasyon yaptılar. En azından, belgeyi gözden kaçırmanın açıklamasını anladım.
kardinal

3
@cardinal - haklısınız, elbette, bu belki de büyük örnek boyutlarında reddedilmelerin önemli bir kısmının kaynağı olabilir. Re: " KS testi için örnek boyutu 10000 değil, 20 idi " ... tamam, bu giderek garip geliyor. Biri, bu koşullardan herhangi birinin neden tersini söylemek yerine çok değerli olduğunu düşündüklerini merak etmeye bırakıldı.
Glen_b-Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.