CLT neden


16

Bu yüzden parametresine sahip poisonun toplamının kendisinin ile bir poisson olduğunu biliyoruz . Varsayımsal olarak, kişi ve aslında olduğunu söyleyebilir, burada her : ve CLT'nin çalışması için büyük bir n alın.λ n λ x p o i s s o n ( λ = 1 ) n 1 x ip o i s s o n ( λ = 1 ) x i x ip o i s s o n ( λ = 1 / n )nλnλxpoisson(λ=1)1nxipoisson(λ=1)xixipoisson(λ=1/n)

Bu (açıkçası) işe yaramıyor. Bunun CLT'nin normale "daha yakın" olan rastgele değişkenler için nasıl "daha hızlı" çalıştığı ile ilgili olduğunu ve daha küçük lambda'nın, çoğunlukla 0 olan ve nadiren başka bir şeye değişen rastgele bir değişken elde ettiğimizi varsayalım.

Ancak açıkladığım şey sezgim. Neden böyle olduğunu açıklamanın daha resmi bir yolu var mı?

Teşekkürler!


6
Yeni başlayanlar için, CLT bölmek için sana ihtiyacı i=1nxi tarafından n (bu durumda bir gaussianla birleşirsiniz).
Alex

1
@AlexR. Eğer bölmek Hayır n , daha sonra standart sapma bir faktör olacaktır 1/n
Aksakal

4
Bu sorunun CLT "çalışmıyor" ile ne ilgisi olduğunu görmüyorum. CLT , belirli bir dağılımla standartlaştırılmış rasgele değişkenlerin toplamlarıyla ilgilidir , oysa tek bir rasgele değişken alıyorsunuz ve onu bölmenin sonsuz yollarını düşünüyorsunuz .
whuber

2
@AlexR Kurulum yanlış görünüyor. Burada devam eden iki farklı süreç var - toplama ve bölme - ve benzer asimptotik özelliklere sahip olmaları gerektiğini varsaymak için bir neden yok.
whuber

3
@Aksakal: Aslında AlexR doğru. Eğer tarafından bölerseniz , siz bir dejenere bir dağılım elde n . √ ile bölerseniznn , sd = 1 ile normal dağılımanolarak yaklaşırsınız. nn
Cliff AB

Yanıtlar:


13

@Whuber ile karışıklığın kökeninin CLT'deki asimtotik toplamı argümanınızdaki bir tür bölünme ile değiştirdiği anlaşılıyor. Clt aldığımız sabit dağıtım daha sonra çekme n numaraları x i ondan ve toplam hesaplamak ˉ x , n = 1 'f(x,λ)nxi . Biz yükselmesi halindensonra ilginç bir şey olur: x¯n=1ni=1nxin buradaμ,σ2ortalama vef(x)dağılımının varyansıdır.

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

Poisson ile yapmayı önerdiğiniz şey biraz geriye doğru: Değişkenleri sabit bir dağılımdan toplamak yerine , sabit dağıtımı sürekli değişen parçalara bölmek istiyorsunuz . Başka bir deyişle, bir değişken almak x bir mesafede sabit bir dağıtım f ( x , λ ) daha sonra bölme içine x i böylece N Σ i = 1 x ixxf(x,λ)xi

i=1nxix

CLT bu süreç hakkında ne diyor? Hiçbir şey değil. CLT'de nasıl değiştiğimizi unutmayın , vedeğişendağıtımf, n(x),bir yakınsarsabitdağılımı, N(0,σ2)n(x¯nμ)fn(x)N(0,σ2)

Kurulumunuzda ne toplam ne de dağılımı f ( x , λ ) değişmiyor! Düzeltildi. Değişmiyorlar, hiçbir şeye yaklaşmıyorlar. CLT'nin onlar hakkında söyleyecek bir şeyi yok.xf(x,λ)

Ayrıca, CLT toplamdaki eleman sayısı hakkında hiçbir şey söylemez. Poisson'dan (0.001) toplam 1000 değişkeniniz olabilir ve CLT toplam hakkında hiçbir şey söylemez. Söyleyecekleri tek şey N artmaya devam ederseniz o zaman bu miktar normal dağılım gibi görünmeye başlayacaktır ki . Aslında N = 1.000.000 ise normal dağılıma yakın bir yaklaşım elde edersiniz.1Ni=1Nxi,xiPoisson(0.001)

Sezginiz sadece toplamdaki eleman sayısı hakkında haklıdır, yani başlangıç ​​dağılımı normalden farklıdır, daha sonra normale ulaşmak için toplamlamanız gereken daha fazla eleman vardır. : Daha resmi (ama yine de gayri) yolu Poisson karakteristik fonksiyonu bakarak olurdu Eğer varsa  > > 1 , Taylor genişleme ile almak (wrt t ) iç içe üssün: exp ( i λ t - λ / 2 t 2

exp(λ(exp(it)1))
λ>>1t Bu normal dağılım N'nin karakteristik fonksiyonudur ( λ , λ 2 )
exp(iλtλ/2t2)
N(λ,λ2)

Bununla birlikte, sezginiz doğru bir şekilde uygulanmaz: CLT'deki toplamı bir tür bölme ile değiştirmek, işleri karıştırır ve CLT'yi uygulanamaz hale getirir.


+1 Prefatory materyal güzelce ifade edilmiş, çok açık ve konunun özüne iniyor.
whuber

7

Örneğinizle ilgili sorun, parametrelerin değiştikçe değişmesine izin vermenizdir . CLT size sonlu ortalama ve sd ile sabit bir dağılım için n ,nn

,xμndN(0,σ)

burada ve σ , x dağılımının ortalaması ve sd'sindendir .μσx

Tabii ki, farklı dağılımlar için (örneğin daha yüksek çarpıklık), bu teoremden türetilen yaklaşım makul hale gelmeden önce daha büyük gereklidir. Örnekte, için λ m = 1 / m bir n > > m normal yaklaşık makul önce gereklidir.nλm=1/mn>>m

DÜZENLE

CLT'nin meblağlar için değil, standart meblağlar için nasıl uygulandığı hakkında tartışma var (örn. olupΣxi). Teorik olarak, bu elbette doğrudur: standart olmayan toplam çoğu durumda tanımsız bir dağılıma sahip olacaktır.xi/nxi

Bununla birlikte, uygulamada, kesinlikle CLT tarafından haklılaştırılan yaklaşık değerleri toplamlara uygulayabilirsiniz! Eğer large için normal CDF'nin yaklaşık olarak hesaplanabilir n , o zaman kesinlikle F Σ x bir sayıl korur normallik ile çarpılması olarak çok can. Ve bunu hemen bu problemde görebilirsiniz: X iP o i s ( λ ) ise Y = n i = 1 X iP o i s ( n λ )Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ). Ve hepimiz üst bölüm olasılık kursumuzda büyük için bir P o i s ( λ ) CDF'sinin μ = λ , σ 2 = λ ile normal olarak oldukça iyi tahmin edilebileceğini öğrendik . Yani herhangi bir sabit λ için , Y P o i s ( n λ ) CDF'sini F ( y - n λ ) ile oldukça iyi bir şekilde tahmin edebiliriz.λPois(λ)μ=λσ2=λ λYPois(nλ)λ>0iseyeterince büyük birniçin(λ=0ise yaklaşım önemsiz bir şekilde uygulanabilir, ancak CDF'nin yazdığım gibi hesaplanmaması).Φ(ynλnλ)nλ>0λ=0

CLT, meblağlara kolayca uygulanmasa da, CLT'ye dayalı yaklaşım kesinlikle geçerlidir. CLT'nin toplamaya uygulanmasını tartışırken OP'nin bundan bahsettiğine inanıyorum.


5

Soru, daha genel olarak düşünülürse, daha fazla düşünülüyorsa, ana Poisson'un dağılımının bağlı olmasına izin vermek, özellikle λ n ve λ n = 1 parametresi ile özel bir durum olarak tartışmak daha ilginçtir . Sanırım nedenini ve bunu nasıl anlayabileceğimizi sormak son derece mantıklıdır, merkezi bir sınır teoreminin S n = n i = 1 X i , n toplamını tutmadığını . Sonuçta, toplamın bileşenlerinin dağılımlarının n'ye bağlı olduğu problemlerde bile bir CLT uygulamak yaygındır.nλnλn=1Sn=i=1nXi,nn. Ayrıca, Poisson değişkenlerinin toplamının bir Poisson değişkeninin dağılımı olarak ayrıştırılması ve daha sonra bir CLT uygulanması yaygındır.

Benim gördüğüm gibi anahtar sorunun inşaat dağılımını ima etmesidir bağlıdır n dağıtımının parametresi şekilde de S n yetişen yok n . Bunun yerine, örneğin S nP o i ( n ) alıp aynı ayrışmayı yaparsanız , standart CLT uygulanır. Aslında, bir CLT'nin uygulanmasına izin veren bir P o i ( λ n ) dağılımının birçok ayrışması düşünülebilir.Xi,nnSnnSnPoi(n)Poi(λn)

Üçgen diziler için Lindeberg-Feller Merkezi Limit Teoremi genellikle bu tür toplamların yakınsamasını incelemek için kullanılır. İşaret ettiğiniz gibi, tüm n için , bu nedenle S n asemptotik olarak normal olamaz. Yine de, Lindeberg-Feller koşulunun incelenmesi, bir Poisson'un toplamına ayrıştırılmasında ilerlemeye yol açabileceği için biraz ışık tutar.SnPoi(1)nSn

Teoremin bir versiyonu Hunter tarafından bu notlarda bulunabilir . Let . Lindeberg-Feller koşulu şu şekildedir , ϵ > 0 :sn2=Var(Sn)ϵ>0

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

nsn=1nnXi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.