Merkezi Limit Teoremi neden simülasyonumda bozuluyor?


21

Diyelim ki aşağıdaki numaralarım var:

4,3,5,6,5,3,4,2,5,4,3,6,5

Bunlardan bazılarını örnek alıyorum, diğeri 5 diyorum ve 5 örneğin toplamını hesaplıyorum. Sonra birçok para elde etmek için tekrar tekrar tekrar ediyorum ve toplamların değerlerini, Orta Sınır Teoremi nedeniyle Gaussian olacak bir histograma çizdim.

Fakat sayıları takip ederken, 4'ü büyük sayıyla değiştirdim:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Bunlardan 5 örneklemin örnekleme toplamları histogramda asla Gauss'a dönüşmez, fakat daha çok split gibi olur ve iki Gauss'a dönüşür. Neden?


1
Bunu n = 30 ya da öylesine ya da öylesine artırırsanız, bunu yapmayacağım ... sadece benim şüphem ve daha kısa ve özlü bir versiyon / kabul edilen cevabın yeniden düzenlenmesi.
oemb1905

@JimSD CLT bir bir asimptotik sonucu (yani, numune büyüklüğü limit standart örnek vasıtasıyla veya miktarlarda dağılımı sonsuza gider) hale getirildi. , n değildir . Baktığınız şey (sonlu örneklerde normallik yaklaşımı) kesinlikle CLT'nin bir sonucu değil, buna bağlı bir sonuçtur. n=5n
Glen_b

3
@ oemb1905 n = 30, OP'nin önerdiği çarpıklık için yeterli değil. gibi bir değere sahip kirlenmenin ne kadar nadir olduğuna bağlı olarak , normal makul bir yaklaşım gibi görünmeden önce n = 60 veya n = 100 veya daha fazla sürebilir. Kirlenme yaklaşık% 7 ise (sorudaki gibi) n = 120 hala biraz 107
yamuksa


(1.100.000, 1.900.000) gibi aralıklarla değerlere asla ulaşılamayacağını düşünün. Ama bu meblağların makul bir miktarını yaparsanız, işe yarayacak!
David

Yanıtlar:


18

Tam olarak merkezi limit teoreminin ne dediğini hatırlayalım.

Eğer X1,X2,,Xk bağımsız ve aynı şekilde dağıtılmış rasgele değişkenlerle (paylaşılan) ortalama μ ve standart sapma σ , sonra X1+X2++Xkkσk , dağılımda standart bir normal dağılımaN-(0,1)(*)yaklaşır.

Bu genellikle "gayri resmi" formda kullanılır:

Eğer X1,X2,,Xk (ortak) ortalama ile, bağımsız ve özdeş olarak dağıtılmış rasgele değişkenlerdir μ ve standart sapma σ , o zaman X1+X2++Xk yakınsak "dağıtım" standart normal dağılıma N-(kμ,kσ).

"Sınır" dağılımının değişmesinden bu yana, CLT'nin bu biçimini matematiksel olarak kesinleştirmenin iyi bir yolu yoktur, ancak pratiklerde yararlıdır.

Ne zaman durağan bir sayılar listemiz varsa

4,3,5,6,5,3,10000000,2,5,4,3,6,5

ve bu listeden rastgele bir sayı alarak örnekleme yapıyoruz, merkezi limit teoremini uygulamak için örnekleme planımızın bu iki bağımsızlık koşulunu karşıladığından ve aynı şekilde dağıtıldığından emin olmamız gerekiyor.

  • Aynı şekilde dağıtılmış sorun yok: listedeki her sayının eşit seçilmesi olası.
  • Bağımsız olan daha ince ve örnekleme programımıza bağlı. Biz örnekleme varsa yerine koymadan , o zaman bağımsızlık ihlal. Yalnızca merkezi limit teoreminin uygulanabilir olduğu yerine örnekleme yaptığımızda.

Öyleyse, şemadaki yedek örneklemeyle kullanırsak , merkezi limit teoremini uygulayabilmeliyiz. Aynı zamanda, haklısın, eğer örneklemiz 5 beden ise, o zaman çok büyük sayının seçilip seçilmemesine bağlı olarak çok farklı davranışlar göreceğiz.

Peki ovma nedir? Eh, normal dağılıma yakınsama oranı , örnekleme yaptığımız popülasyonun şekline bağlıdır, özellikle, eğer popülasyonumuz çok eğrilmişse, normale dönüşmesi uzun zaman alır. Örneğimizde durum budur, bu yüzden normal yapıyı göstermesi için 5 büyüklüğünde bir örnek yeterli olacağını beklememeliyiz.

Üç Normal Dağılım

Yukarıda, 5, 100 ve 1000 boyutlarındaki örnekler için denemenizi (yedek örneklemeyle) tekrarladım. Çok büyük örnekler için normal yapının ortaya çıktığını görebilirsiniz.

(*) Burada sonlu ortalama ve varyans gibi bazı teknik şartların gerekli olduğunu unutmayın. Bir örnekleme örneğindeki örneklememizde doğru oldukları kolayca doğrulanabilirler.


Çok hızlı ve mükemmel bir cevap için teşekkür ederim. CLT fikrinin değiştirilmesi, veri dağıtımı çarpıtıldığında daha fazla numuneye ihtiyaç duyulması ... Şimdi çok açık. Asıl soru niyetim, tıpkı sizin söylediğiniz gibi, çok sayıda sayının değiştirilmeden dahil edilmesi ve örnekleme sayısının sabittir. Çok farklı davranır ve bu nedenle çok sayıda örneklenen ve örneklenmemiş durum için "koşullu" CLT'yi göz önünde bulundurmamız gerekir. Bunun için herhangi bir araştırma veya önceki çalışma olup olmadığını merak ediyorum .. Yine de teşekkür ederim.
JimSD

burada uygulanabilir olup olmadığını bilmiyorum, fakat çarpıklık tarafından düzenlenmiş CLT yakınsama teoremi en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507

@ MatthewDrury'nin CLT tanımı ile biraz kafam karıştı. Bence normal bir dağılım değil LLN ile bir sabite yakınsar. ΣXkk
JTH

1
@ seanv507 çarpıklıktan ziyade mutlak üçüncü an; ikisi ilişkilidir ancak Berry-Esseen'in bağlı olduğu sonlu üçüncü an ile simetrik bir dağılım için | F n ( x ) - Φ ( x ) | 0 değil çünkü ρ / σ 3 çarpıklık değil|Fn(x)-Φ(x)|ρ/σ3
Glen_b -Reinstate Monica

1
@Glen_b Yah, biraz gayrı resmi olmuştum (belki de olmamalıydı), fakat biraz karışıklığa neden olduğu için bu öğleden sonra düzeltebilirim.
Matthew Drury

12

Genel olarak, CLT yaklaşımının iyi olması için her bir numunenin boyutu 5 fazla olmalıdır . Bir kural, 30 ya da daha büyük boyutlu bir örnektir . Ancak, ilk örneğinizin nüfusu ile 5 tamam.

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

görüntü tanımını buraya girin

İkinci örneğinizde, nüfus dağılımının şekli yüzünden (bir şey için, çok fazla çarpık; erkek ve Glen_b feryat tarafından yapılan yorumları okuyun ), 30 büyüklüğündeki örnekler bile dağılımı için size iyi bir yaklaşım vermeyecektir. CLT kullanarak örnek ortalama.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

görüntü tanımını buraya girin

Ancak, bu ikinci popülasyonla, örneğin, 100 büyüklüğünün örnekleri iyi.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

görüntü tanımını buraya girin


3
Sorun olan varyans değil. Titiz bir kontrol elde etmenin bir yolu, üçüncü merkezi anın, Berry-Esseen teoreminde olduğu gibi küp küp standart sapmaya oranını kullanmaktır.
adam

Mükemmel. Katma. Tks.
Zen

1
Bir kod ile hızlı, görsel ve mükemmel bir cevap için teşekkür ederiz. Ne kadar hızlı olduğuna çok şaşırdım! Uygun sayıda örneklemenin farkında değildim. Örnekleme sayısının sabit olduğu durumu düşünüyordum.
JimSD

@guy, Bunun için teşekkür ederim. "Üçüncü merkezi anın Berry-Esseen teoreminde küplenmiş standart sapmaya oranı" fikrini bilmiyordum . Sadece dağıtımcıya dahil olan çok sayıda sayının olduğu dava ile ilgilenmek istiyorum. Ve sanırım söylediğiniz gibi bu tür bir dağıtım hak edilebilir. Bu tür bir dağıtımla ilgili daha önce herhangi bir çalışma olduğunu biliyorsanız, bana bildirin, teşekkür ederim.
JimSD

2
ρ=E[|Xμ|3]μ3=E[(X-μ)3]

7

Karmaşık biriktirici işlevler kullanarak neden herkesin bunu çarpıklıkla suçladığını açıklamak istiyorum .

μ+σZμσZ01Z-12t2-benγ16t3+O(t3)γ1Zκ3μ+σZγ1=σ-3κ3

nZn

n(-12(tn)2-benγ16(tn)3)+O(t3)=-12t2-benγ16nt3+O(t3).
tnnαγ12γ1


-1

Kısa cevap, merkezi limit teoremini uygulamak için yeterince büyük bir örneğiniz yok.


1
Bunun geçerli bir açıklama olamayacağı, CLT'nin söz konusu ilk eşit veri kümesi için iyi bir yaklaşım verdiği gözleminden açıkça anlaşılmaktadır.
whuber

@whuber: Normal dağılımın ilk setten beş örnek için makul derecede iyi bir yaklaşım verdiğini söylüyorsunuz. Toplamlar için sadece sınırlı sayıda değer bulunduğundan (değişmeden 13 olası değer ve yenisiyle 21 olası değer), yaklaşık beş örneklemede yaklaşım çok daha iyi olmuyor ve ilk yaklaşım daha çok İlk kalıp ...
Henry,

@whuber İlk kümenin dağılımı çarpık bırakılmış gibi göründüğünden, beşin toplamının da çarpık kalmasını beklerdim, ikinci setten beşinin toplamının doğru çarpık olmasını beklediğimden daha az aşırı bir şekilde beklerdim. Eğikliği daha da azaltmak için, daha büyük bir örneklem boyutuna ihtiyacınız olacağını düşünmüştüm
Henry

1
@Henry Yorumlarınız için teşekkür ederiz. Bu özel durumlar hakkında bir açıklama yapmıyordum, ancak daha fazla açıklanması umuduyla sadece bu cevabın mantığı hakkında.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.