Merkezi limit teoremi için ne sezgisel açıklama var?


144

Birkaç farklı bağlamda , benimsemek istediğimiz istatistiksel yöntemi haklı çıkarmak için merkezi limit teoremini çağırıyoruz (örneğin binom dağılımını normal bir dağılımla yaklaşık olarak tahmin et). Teorinin neden doğru olduğuna dair teknik detayları anlıyorum, ancak şimdi ortaya çıktı, merkezi limit teoreminin arkasındaki sezgiyi gerçekten anlamadım.

Peki, merkezi limit teoreminin ardındaki sezgi nedir?

Layman açıklamaları ideal olacaktır. Bazı teknik detaylara ihtiyaç duyulursa, lütfen pdf, cdf, rasgele değişken vb. Kavramlarını anladığımı ancak yakınsama kavramları, karakteristik fonksiyonlar veya ölçüm teorisi ile ilgisi olan hiçbir bilgiye sahip olmadığımı varsayalım.


8
İyi bir soru, şu anki tepkimden, bunu öğretme konusundaki sınırlı tecrübemle desteklenmeme rağmen, CLT'nin başlangıçta çoğu insan için sezgisel olmadığıdır. Bir şey olursa, sezgiseldir!
39’da

2
@onestop AMEN! n arttıkça p = 1/2 ile binom dağılımına bakmak , CLT'nin gizlendiğini gösteriyor - ancak sezgisi her zaman benden kaçtı.
ronaf

2
Bazı güzel fikirlerle benzer bir soru: stats.stackexchange.com/questions/643/…

1
Bir açıklama değil, bu simülasyon onu anlamakta yardımcı olabilir.
David Lane

Yanıtlar:


119

Bu yazının uzunluğu için şimdiden özür dilerim: kamuoyunda serbest bırakmam biraz tedirgin, çünkü okumanın biraz zaman alması ve şüphesiz yazım hataları ve açıklayıcı gecikmeleri var. Ancak burada, büyüleyici bir konuya ilgi duyanlar için, CLT'nin bir veya daha fazla bölümünü bir veya daha fazlasını tanımlamanızın, kendi yanıtlarınızda daha fazla ayrıntıya girmeniz için cesaretlendirmesi umuduyla sunulmuştur.


CLT'yi "açıklama" girişimlerinin çoğu, illüstrasyonlar veya sadece doğru olduğunu iddia eden ifadelerdir. Gerçekten etkileyici, doğru bir açıklama çok fazla şeyi açıklamak zorunda kalacaktı.

Buna daha fazla bakmadan önce, CLT'nin ne dediği konusunda net olalım. Hepinizin bildiği gibi, genelliğine göre çeşitlilik gösteren versiyonlar var. Ortak bağlam, ortak bir olasılık alanı üzerindeki belirli fonksiyon türleri olan rastgele değişkenlerin bir dizisidir. Titizlikle tutan sezgisel açıklamalar için, olasılık alanını ayırt edilebilir nesneler içeren bir kutu olarak düşünmeyi faydalı buluyorum. Bu nesnelerin ne olduğu önemli değil ama ben onlara "bilet" diyeceğim. Biletleri iyice karıştırarak ve bir tanesini çizerek bir kutunun "gözlemini" yaparız; bu bilet gözlemi oluşturur. Daha sonra analiz için kaydettikten sonra, bileti kutuya geri göndeririz, böylece içerikleri değişmeden kalır.Bir "rastgele değişken", temel olarak her bir biletin üzerine yazılmış bir sayıdır.

1733 yılında, Abraham de Moivre , biletlerin sayısının sadece sıfır ve "Bernoulli denemeleri" olan tek bir kutu olduğu ve her birinin sayısının mevcut olduğunu düşündü. O hale hayal fiziksel olarak bağımsız bir değerler dizisi elde, gözlemlerini x 1 , x 2 , ... , x n sıfır veya birdir hepsi. Toplamı bu değerlerin, Y , n = x 1 + x 2 + ... + x nnx1,x2,,xnyn=x1+x2++xn, rastgele çünkü toplamın içindeki terimlerdir. Bu nedenle, bu prosedürü birçok kez tekrarlayabilirsek, çeşitli toplamlar ( ile n arasında değişen tam sayılar).0n ) farklı frekanslarda ile görünür - toplam oranlarını. (Aşağıdaki histogramlara bakınız.)

Şimdi bir kişi bekler - ve bu doğru - çok büyük değerleri için , tüm frekansların oldukça küçük olacağıdır. Biz "bir sınırı geçmeye" girişimi ya da "let şekilde kalın (ya da aptalca) olmak olsaydı n gidin ", hepimiz frekansları indirgendiği doğru sonuçlandırmak istiyorum 0nn0 . Ancak , sadece frekansların bir histogramını çizersek , eksenlerinin nasıl etiketlendiğine hiç dikkat etmeden, büyük için histogramların hepsinin aynı gibi görünmeye başladığını görürüz : bir bakıma, bu histogramlar , frekanslar olsa bile bir sınıra yaklaşır. kendileri sıfıra gider.n

histogramlar

Bu histogramlar, elde etme prosedürünü tekrarlamanın sonuçlarını göstermektedir. birçok kez. nynn başlıklarda "deneme sayısı" dır.

Buradaki içgörü önce histogramı çizip eksenlerini daha sonra etiketlemektir . Büyük ile histogram n / 2 (yatay eksende) etrafında ortalanmış geniş bir değer aralığını ve ufak bir değer aralığını (dikey eksende) kapsar çünkü bireysel frekanslar oldukça küçüktür. Çizim bölgesine bu eğri uydurma nedenle her ikisi de gerekli olan vites değiştirme ve yeniden olçeklendirmenin histogramının. Bunun matematiksel açıklaması, her n bazı merkezi değerlerinn/2n (ille benzersiz değil!) Histogramı ve bazı ölçek değerin konumlandırmak için s nmnsn(mutlaka benzersiz değil!) eksenlerin içine sığdırmak için. Bu değiştirerek matematiksel yapılabilir için z , n = ( y , n - m , n ) / s nynzn=(ynmn)/sn .

Bir histogramın , yatay eksen arasındaki alanlara göre frekansları temsil ettiğini unutmayın . Bu nedenle , bu histogramların büyük değerleri için nihai kararlılığı bu nedenle alan olarak belirtilmelidir. n Yani, sizin gibi değerlerin herhangi aralığını seçmek, gelen söylemek etmek b > a kadar ve n artar hıstogramının kısmının bölgeyi izlemek z n yatay aralığını kapsayanab>anzn . CLT birkaç iddia bir şeyler:(a,b]

  1. Ne olursa olsun ve b vardırab seçtiğimiz takdirde dizileri ve s n bağlı değildir biçimde (uygun birmnsna veya), bu alan gerçekten n'nin büyüdükçebir sınıra yaklaşır.bn

  2. Dizileri vemn sadece bağlıdır şekilde seçilebilir n , kutuda değerlerin ortalamasını ve bu değerlerin yayılmasıyla bazı ölçüler - yani ne olursa olsun içinde ne olduğu - ama başka hiçbir şey kutu, limit her zaman aynıdır. (Bu evrensellik özelliği muhteşem.)snn

  3. Spesifik olarak, bu sınırlayıcı alan y = exp ( - z 2 eğrisinin altındaki alandır)y=exp(z2/2)/2π arası ile bab : bu evrensel sınırlayıcı histogram formülüdür.

    CLT’nin ilk genellemesi;

  4. Kutu, sıfırlara ve rakamlara ek olarak rakamlar içerebiliyorsa , aynı sonuçlar (kutudaki son derece büyük veya küçük sayıların oranlarının kesin ve basit bir nicel ifadeye sahip olan bir kriterin "çok iyi" olmaması şartıyla). .

    Bir sonraki genelleme ve belki de en şaşırtıcı olanı, bu tek kutu biletin, sıralı ve uzun bir kutu sıralı biletle değiştirilmesidir. Her kutunun biletleri farklı oranlarda farklı numaralara sahip olabilir. gözlemi ilk kutudan bir bilet çekilerek yapılır,x1 , böylece ikinci kutu gelir ve.x2

  5. Tam olarak aynı sonuçlar , kutuların içeriğinin “çok farklı olmamak” anlamına gelmesi koşuluyla geçerlidir (“çok farklı değil” anlamına gelen şeyin kesin, ancak farklı, nicel karakterizasyonları vardır; şaşırtıcı bir enlem değeri sağlarlar).

Bu beş iddia, en azından açıklamaya ihtiyaç duyuyor. Fazlası var. Kurulumun merak uyandıran bazı yönleri tüm ifadelerde gizlidir. Örneğin,

  • Toplamın nesi özel ? Neden, ürünleri veya maksimumları gibi diğer matematiksel sayı kombinasyonları için merkezi limit teoremlerine sahip değiliz? (Yaptığımız anlaşılıyor, ama çok genel değiller veya CLT'ye indirgenemezlerse, her zaman böyle temiz, basit bir sonuca sahip değiller.) ve s n dizileri benzersiz değil ama onlar neredeyse sonunda onlar toplamının beklenti yaklaşık zorunda anlamda benzersiz n biletleri ve standart sapma sırasıyla (CLT ilk iki tablolara eşittir hangi toplamı, bir mnsnnn kutunun standart sapma kez).

    Standart sapma, değerlerin yayılmasının bir ölçüsüdür, ancak hiçbir şekilde tek ya da tarihsel olarak ya da birçok uygulama için en "doğal" değildir. ( Örneğin, birçok insan medyandan medyan mutlak bir sapma gibi bir şey seçerdi.)

  • SD neden bu kadar önemli bir şekilde görünüyor?

  • Sınırlayıcı histogram için formülü düşünün: kim böyle bir form almasını bekler ki? Olasılık yoğunluğunun logaritmasının ikinci dereceden bir fonksiyon olduğunu söylüyor . Neden? Bunun için bazı sezgisel veya açık, zorlayıcı bir açıklama var mı?


Srikant'ın zorlayıcı sezgisellik ve basitlik ölçütlerini karşılayacak kadar basit cevaplar sağlama hedefine ulaşamadığımı itiraf ediyorum, ancak bu arka planı başkalarının birçok boşluğu doldurmak için ilham alabileceği umuduyla çizdim. Sonuçta iyi bir gösterimin sonuçta ile β n = b s n + m n arasındaki değerlerin x 1 + x 2 + ... + x nαn=asn+mnβn=bsn+mnx1+x2++xn. CLT tek kutu sürümüne geri dönecek olursak, bir simetrik dağılım durum ele basittir: kendi medyan onun ortalamasını eşittir, bu nedenle% 50 şans var kutunun ortalamasından daha az olacaktır ve% 50'lik şans bu x i , ortalamasından daha büyük olacak. Ayrıca, n yeterince büyük olduğunda , ortalamanın pozitif sapmaları, ortalamadaki negatif sapmaları telafi etmelidir. (Bu sadece el sallayarak değil, dikkatli bir gerekçe gerektirir.) Bu yüzden öncelikle sayma konusunda endişelenmeliyiz.xixin pozitif ve negatif sapmaların ve sadece büyüklükleriyle ilgili ikincil bir endişemiz olması gerekir . (Buraya yazdığım tüm şeyler arasında, CLT'nin neden çalıştığı hakkında bazı sezgiler sağlama konusunda en yararlı olabilir. Aslında, CLT'nin genelleştirmelerini gerçeğe dönüştürmek için gerekli teknik varsayımlar, temelde bu olasılığın dışlanmasının çeşitli yolları olduğunu göstermektedir. nadir görülen dev sapmalar, sınırlayıcı histogramın ortaya çıkmasını önleyecek kadar dengeyi bozacaktır.)

Bu, bir şekilde, CLT'nin ilk genellemesinin neden de Moivre'nin orijinal Bernoulli deneme sürümünde olmayan bir şeyi gerçekten ortaya çıkarmadığını gösteriyor.

Orada benziyor Bu noktada biraz hesap yapmak ama bunun için başka bir şey değildir: biz saymak gerekir ortalamasından pozitif sapmaların sayısı, herhangi önceden belirlenmiş değer ile negatif sapmaların sayısından farklı olabilir hangi farklı şekillerde sayısını açıkça görüldüğü üzere k , - n , - n + 2 , , n - 2 , n den biri . Ancak ufukta ufak hatalar sınır içinde ortadan kalkacağından, kesin olarak saymak zorunda değiliz; sadece sayıları tahmin etmemiz gerekiyor. Bu amaçla bunu bilmek yeterlikkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

(Bu çok basit bir sonuçtur, bu yüzden gerekçeyi yazmak için uğraşmayacağım.) Şimdi toptan satış yapıyoruz. Maksimum frekans, olabildiğince n / 2'ye yakın olduğunda meydana gelir (ayrıca temel). M = n / 2 yazalım . Daha sonra, maksimum frekansa göre, m + j + 1 pozitif sapmaların frekansı ( j 0 ) ürün tarafından tahmin edilir.kn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

De Moivre'nin yazmasından 135 yıl önce, John Napier çarpmayı kolaylaştırmak için logaritmalar icat etti, bundan yararlanalım. Yaklaşımın kullanılması

log(1x1+x)2x,

Göreceli frekans günlüğünün yaklaşık olduğunu

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Toplu hata ile orantılı olduğu için , bu da Resim çalışması gerektiğini J 4 göre küçük olduğu m 3 . Bu, gerekenden daha geniş bir j değerleri aralığını kapsar . (Bu yaklaşım için çalışmak için yeterli j yalnızca sırasına j4/m3j4m3jj asimptotik çok daha küçüktürm 3 / 4mm3/4 ).


Açıkçası, CLT'deki diğer iddiaları haklı çıkarmak için bu türden çok daha fazla analiz sunulmalı, fakat zaman, mekan ve enerji tükeniyor ve muhtemelen bunu okumaya başlayan kişilerin% 90'ını kaybettim. Bu basit yaklaşım olsa da, nasıl anlaşılacağı Moivre aslen evrensel bir sınırlama dağıtım onun logaritma bir kuadratik fonksiyon olduğunu, olduğu şüpheli olabilirdi de, ve uygun ölçek faktörün olduğunu orantılı olmalıdır sn (nedeniylej2/m=2j2/n=2(j/n). j2/m=2j2/n=2(j/n)2 Bu önemli nicel ilişkinin, bir tür matematiksel bilgi ve muhakeme gerektirmeden nasıl açıklanabileceğini hayal etmek zordur; daha az bir şey sınırlama eğrisinin kesin şeklini tam bir gizem bırakacaktır.


5
+1 Cevabınızı sindirmek biraz zaman alacak. CLT'ye bir sezginin sorulmasının benim yaptığım kısıtlamalar dahilinde yapılmasının neredeyse imkansız olabileceğini itiraf ediyorum.

2
Bunu yazmak için zaman ayırdığınız için teşekkür ederiz, bu CLT'nin matematiksel olarak da erişilebilir olan en yararlı ifadesidir.
jeremy radcliff

1
Evet, oldukça yoğun .... pek çok soru. İlk histogramın 2 çubuğu nasıl var (sadece 1 deneme yapıldı!); bunu görmezden gelebilir miyim? Ve kongre genellikle bir histogramın çubukları arasındaki yatay boşlukları önlemek içindir, değil mi? (Dediğiniz gibi, alan önemlidir ve alan sonunda sürekli (yani boşluk yok) bir alan üzerinden hesaplanacaktır). Yani boşlukları da görmezden geleceğim ...? İlk anlamaya çalıştığımda bile boşluklar vardı :)
Kızıl Bezelye

1
@TheRed Sorularınız için teşekkür ederiz. Bu noktaları biraz daha net hale getirmek için bu yazının ilk bölümünü düzenledik.
whuber

4
Ah, evet, "deneme sayıları = =" gözlemler "" ile " kafamı karıştırdım (bu prosedürün tamamı tekrarlandı)". Bu nedenle, bir bilet yalnızca 0 veya 1 değerindeki iki değere sahipse ve yalnızca bir bilet gözlemlerseniz , bu biletlerin değerlerinin toplamı yalnızca iki şeyden biri olabilir : 0 veya 1 . Bu yüzden ilk histogramında iki çubuk var. Üstelik, bu çubukların kabaca yüksekliği eşit çünkü 0 ve 1'in eşit oranlarda olmasını bekliyoruz. n
Kırmızı Bezelye

27

Bildiğim en güzel animasyon: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

Her biri kademeli olarak yerleştirilmiş eşit aralıklı pimlerin 8 yatay katı, bu pimlerin içinden düşen toplar için "pachinko / langırt" tarzı bir engelle sonuçlanır.  Her top dibe düşer ve toplar istiflenirken, yükseklikleri Gauss eğrisinin dış çizgisine yaklaşır.  Bu, birçok bağımsız rastgele olayın (katmanlar) toplamının, Gaussian bir sonuç dağılımına (yığılmış top yüksekliği) neden olacağını göstermektedir.

Okuduğum en basit kelimeler: http://elonen.iki.fi/articles/centrallimit/index.en.html

Bu on fırlatmanın sonuçlarını toplarsanız, elde ettiğiniz şeyin maksimum 30-40'a, 60'a (altıların tamamı) veya diğer taraftan, minimuma, 10'a (hepsine) yakın olması muhtemeldir.

Bunun nedeni, orta değerleri aşırı uçlardan çok daha farklı şekillerde elde edebilmenizdir. Örnek: iki zar atarken: 1 + 6 = 2 + 5 = 3 + 4 = 7, ancak sadece 1 + 1 = 2 ve sadece 6 + 6 = 12.

Yani: bir kalıp atılırken eşit olasılıkla eşit olan altı sayıdan herhangi birini elde etseniz bile, aşırılıklar birkaç zarın toplamındaki orta değerlerden daha az olasıdır.


20

Sezgi zor bir şeydir. Hatta elimizde arkamızda bağlanmış teorisi ile daha zor.

CLT, küçük, bağımsız rahatsızlıkların toplamı ile ilgilidir. Örneklem anlamında "toplamlar", sonlu varyans (nüfusun) anlamında "minik" ve merkezi (popülasyon) bir değer etrafında artı / eksi anlamında "rahatsızlıklar" anlamına gelir.

Benim için sezgiye en çok hitap eden cihaz , quincunx ya da 'Galton kutusu'. Vikipedi'ye bakın ('fasulye makinesi' için?) Fikir, kafes tarafından süslenmiş bir tahtadan aşağıya küçük bir küçük top döndürmek. eşit aralıklarla yerleştirilmiş pimler. Top aşağı giderken sağa ve sola doğru (... rasgele, bağımsız olarak) sapar ve altta toplanır. Zamanla gözlerimizin hemen önünde güzel bir çan şeklindeki höyük şekli görüyoruz.

CLT de aynı şeyi söylüyor. Bu fenomenin matematiksel bir açıklamasıdır (daha doğrusu, quincunx binom dağılımına normal yaklaşım için fiziksel bir kanıttır). Açıkça konuşursak, CLT, nüfusumuzun aşırı derecede yaramazlık olmadığı sürece (yani, PDF'nin kuyrukları yeterince ince ise), örnek ortalamasının (gerektiği gibi ölçeklendirildiği gibi) yüzünün aşağı fırlayan küçük top gibi davrandığını söylüyor quincunx: bazen sola doğru düşer, bazen sağa doğru düşer, ancak çoğu zaman tam ortada, güzel bir çan şeklinde iner.

CLT’nin majesteleri (bana göre), altta yatan nüfusun şeklinin alakasız olması. Şekil yalnızca, beklememiz gereken süreyi delege ettiği sürece (örneklem büyüklüğü anlamında) rol oynar.


17

CLT ile ilgili bir gözlem aşağıdaki olabilir. Bir miktarınız olduğunda çok fazla rastgele bileşenin olması durumunda, eğer "normalden küçük" ise, bu çoğunlukla diğer bileşenlerin bazıları tarafından "normalden daha büyük" olarak telafi edilir. . Başka bir deyişle, negatif sapmalar ve bileşenden gelen pozitif sapmalar, toplamda birbirini iptal eder. Şahsen, neden tam olarak kalan sapmaların, terimlerinizin daha normal göründüğü bir dağılım oluşturduğuna dair kesin bir sezgim yok.

S=X1+X2++Xn

CLT’nin birçok sürümü vardır, bazıları diğerlerinden daha güçlü, bazıları terimler arasında ılımlı bir bağımlılık ve / veya terimler için özdeş olmayan dağılımlar gibi rahat koşullar vardır. CLT'nin ispatlanması en basit versiyonlarında, ispat genellikle toplamın moment üretme işlevine (veya Laplace-Stieltjes dönüşümü veya başka bir uygun dönüşüm dönüşümü) dayanmaktadır.. Bunu bir Taylor açılımı olarak yazmak ve sadece en baskın terimi tutmak size normal dağılımın moment üreten fonksiyonunu verir. Kişisel olarak benim için, normallik bir grup denklemden sonra gelen bir şeydir ve bundan daha fazla sezgi sağlayamıyorum.S

Toplamın en dağılımı ise unutulmamalıdır asla gerçekten edilir normalde dağıtılmış, ne CLT olacağını iddia yapar. Eğer sonlu ise, normal dağılıma hala bir mesafe vardır ve eğer n = ∞ isenn= hem ortalama hem de varyans sonsuzdur. İkinci durumda, sonsuz toplamın ortalamasını alabilir, ancak daha sonra "normal dağılmış" olarak etiketlenebilecek neredeyse hiç değişmeden belirleyici bir sayı elde edersiniz.

Bu, CLT'nin pratik uygulamalarında problem yaratabilir. Genellikle, eğer S / n dağıtımıyla ilgileniyorsanızS/n merkeze yakın , CLT düzgün çalışır. Bununla birlikte, normale yakınsama her yerde tekdüze değildir ve merkezden uzaklaştıkça makul bir yaklaşıma sahip olmanız gerekir.

Merkezi Limit Teoreminin tüm “kutsallığına” istatistik olarak bakıldığında, sınırlamaları çoğu zaman kolayca göz ardı edilir. Aşağıda, CLT'nin kuyruklarda başarısızlıkla sonuçlanacağı noktasında, pratik kullanımda iki slayt verdim. Ne yazık ki, birçok insan bilerek veya başka bir şekilde kuyruk olasılıklarını tahmin etmek için CLT'yi özel olarak kullanır.

görüntü tanımını buraya girin görüntü tanımını buraya girin


5
Bu harika bir materyal ve akıllıca bir tavsiye. Maalesef, "Bu normallik matematiksel bir eserdir ve arkasındaki daha derin bir gerçeği veya sezgiyi aramanın yararlı olmadığını düşünüyorum" konusundaki iddiaları derinlemesine rahatsız ediyor çünkü maalesef bunu savunamam. Teorik olarak bize yardım etmek için (1) matematiğe güvenmememiz gerektiğini ve (2) matematiği ilk önce anlamanın bir anlamı olmadığını öne sürüyorlar. Umarım bu konudaki diğer yazılar zaten ikinci iddiayı onaylamama konusunda uzun bir yol kat eder. İlki o kadar kendi kendine tutarsız ki, daha fazla analiz yapmıyor.
whuber

2
@whuber. Haklısın, belki de ligimin dışındayım. Düzenleyeceğim.
StijnDeVuyst

3
Sorunlu kısmı ve geri kalanı için büyük bir + 1'i değerlendirdiğiniz için teşekkür ederiz.
whuber

7

Bu cevap, basit matematik teknikleri kullanarak merkezi limit teoreminin sezgisel bir anlamını vermeyi umuyor (3. sıradaki Taylor açılımı). İşte taslak:

  1. CLT ne diyor
  2. Basit hesap kullanarak CLT'nin sezgisel bir kanıtı
  3. Neden normal dağılım?

En sonunda normal dağılımdan bahsedeceğiz; çünkü normal dağılımın eninde sonunda ortaya çıkması, fazla sezgi içermiyor.

1. Merkezi limit teoremi ne diyor? CLT’nin birkaç sürümü

CLT'nin birçok farklı sürümü var. CLT'nin ders kitabı, herhangi bir gerçek x için olduğunu söylüyor.x ve bağımsız rastgele değişken herhangi bir dizisi X1,,Xn sıfır ortalama ve varyans 1, CLT ile ilgili neyinevrenselvesezgiselolduğunu anlamakiçin, bir an için sınırını unutalım. Yukarıdaki açıklamada, eğer diyorX1. ,...,Xn veZ1,

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn bağımsız bir rastgele değişkenin iki dizi, sıfır ortalama ve varyans 1, daha sonra her biri her gösterge fonksiyonu için ön formun, bir sabit gerçek x , f ( t ) = { 1  ise  t < x 0  ise  t x .
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
fx
f(t)={1 if t<x0 if tx.
Bir önceki ekran limiti olursa olsun belirli dağılımları aynıdır gerçeğini temsil X1,,Xn ve Z1,,Znrastgele değişkenlerin ortalama sıfır ile bağımsız olması şartıyla, varyansı birdir.

CLT'nin diğer bazı versiyonları 1 ile sınırlanan Lipschtiz fonksiyonlarının sınıfından bahseder; CLT'nin diğer bazı versiyonları, k sırasının sınırlı türevli yumuşak fonksiyonlar sınıfından bahseder . Göz önünde iki dizi, X1,,Xn ve Z1,,Zn yukarıdaki gibi ve bir fonksiyonu f , yakınsama sonucu (CONV)

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

Aşağıdaki ifadeler arasında denkliği ("eğer ve sadece eğer") belirlemek mümkündür:

  1. (CONV) Yukarıdaki her gösterge işlevleri için de geçerlidir f formu f(t)=1 için t<x ve f(t)=0 içintx bazı sabit gerçekx .
  2. (CONV) f:RR için sınırlı sayıda dudak tutma işlevini tutar .
  3. (CONV) her kompakt (yani, C ) fonksiyonunu kompakt destekli tutar.
  4. (CONV) her işlevleri için de geçerlidir f ile sürekli türevlenebilir üç zaman supxR|f(x)|1 .

Yukarıdaki 4 noktadan her biri yakınsaklığın büyük bir işlev sınıfı için geçerli olduğunu söylüyor. Teknik bir yaklaşım argümanı ile, yukarıdaki dört noktanın eşdeğer olduğunu gösterebiliriz, okuyucuyu, teorik olasılıkları ölçmek için David Pollard'ın A kullanıcısı kitapçığının 7. Bölümüne, 77. sayfaya atıfta bulunuyoruz bu cevabın oldukça ilham aldığı .

Bu cevabın kalanı için varsayımımız ...

supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

2. değeriE[f(X1++Xnn)]X1,...,Xn

X1,,XnZ1,,Zn

XiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
buradaMnveMnXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3XnZn

Şimdi yerine yinelemek Xn1 ile Zn1 . Eğer W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
nX1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1 was of utmost importance for the above bounds.

3. Why the normal distribution?

We have seen that the expectation E[f(X1++Xnn)] will be the same no matter what the distribution of Xi is, up to a small error of order O(1/n).

But for applications, it would be useful to compute such quantity. It would also be useful to get a simpler expression for this quantity E[f(X1++Xnn)].

Since this quantity is the same for any collection X1,,Xn, we can simply pick one specific collection such that the distribution (X1++Xn)/n is easy to compute or easy to remember.

For the normal distribution N(0,1), it happens that this quantity becomes really simple. Indeed, if Z1,,Zn are iid N(0,1) then Z1++Znn has also the N(0,1) distribution and it does not depend on n! Hence if ZN(0,1), then

E[f(Z1++Znn)]=E[f(Z)],
and by the above argument, for any collection of independent random variables X1,,Xn with E[Xi]=0,E[Xi2]=1, then

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

CLT'den ziyade çok sayıda yasayı iddia ediyor gibi görünüyorsunuz .
whuber

1
I am not sure why you would say this, @whuber. The above give an intuitive proof that E[f((X1+...+Xn)/n)] converges to E[f(Z)] where ZN(0,1) for a large class of functions f. This is the CLT.
jlewk

2
Ne demek istediğini anlıyorum. Bana duraklama veren şey, iddianın yalnızca beklentilerle ilgiliydi, dağıtımlarla değil, CLT sınırlayıcı bir dağıtımla ilgili sonuçlara varması. İkisi arasındaki denklik hemen hemen çok belirgin olmayabilir. Öyleyse, ifadenizle CLT'nin olağan beyanları arasında, dağıtımları sınırlama konusunda açık bir bağlantı sağlamanızı önerebilir miyim? (Bu arada +1: bu tartışmayı hazırladığın için teşekkürler.)
whuber

1

Sezgisel bir sürümle gelmeye çalışmaktan vazgeçtim ve bazı simülasyonlar ile geldim. Bir Quincunx simülasyonu sunan ve bir kişi için yeterli miktarda RT toplarsanız, çarpık bir ham reaksiyon süresi dağılımının bile nasıl normal olacağını gösteren şeyler yapan başkalarına sahibim. Sanırım yardım ediyorlar ama bu yıl sınıfımda yeni oldular ve henüz ilk sınavı almadım.

İyi olduğunu düşündüğüm bir şey, çok sayıda yasayı da gösterebilmekti. Değişkenlerin küçük örneklem büyüklükleriyle nasıl olduğunu gösterebilirim ve sonra büyük boylarla nasıl dengelendiğini gösterebilirim. Ben de bir sürü başka büyük demo yapıyorum. Quincunx'te rastgele işlem sayıları ile örnek sayıları arasındaki etkileşimi gösterebilirim.

(benim sınıfımda bir tebeşir veya beyaz tahta kullanamamaya başladım nimet olmuş olabilir)


Merhaba John: Neredeyse dokuz yıl sonra bu yazı ile sizi tekrar görmek güzel! CLT ve LLN'lerin fikrini öğretmek için simülasyon kullanımınızla birlikte bu arada yaşadığınız deneyimleri okumak ilginç olurdu.
whuber

I stopped teaching that class a year later but the subsequent instructor picked up on the simulation idea. In fact, he carries it much farther and has developed a sequence of shiny apps and has students play with simulations for loads of things in the 250 person class. As near as I can tell from teaching the upper class the students seem to get a lot out of it. The difference between his students and those from equivalent feeder classes is noticeable. (but , of course, there are lots of uncontrolled variables there)
John

Sağol John. Bir ders bittikten sonra kalıcı öğrenci performansı hakkında anekdotsal bir geri bildirim almak bile alışılmadık bir durum .
whuber

-8

Birlikte çok sayıda rastgele dağılım histogramı eklediğinizde, normal dağılım şeklini korursunuz çünkü bireysel histogramların tümü zaten bu şekle sahiptir veya büyük bir eklerseniz, ayrı ayrı histogramlardaki dalgalanmalar birbirini iptal etme eğilimindedir. histogram sayısı. Bir değişkenin rastgele dağılımının histogramı, yaklaşık olarak insanların normal dağılımı çağırmaya başlayacak şekilde dağılmış durumdadır, çünkü çok yaygındır ve bu, merkezi limit teoreminin bir mikro kozmoszamıdır.

Bu bütün hikaye değil ama sanırım olabildiğince sezgisel.


2
Bir "normal dağılım" tanımınız yerine çift üstelin ayrı bir sürümü gibi ses çıkarır; bunun bir Gauss normal dağılımına bile uzaktan benzememesi bile mümkündür (her ikisi de tek yönlü ve simetrik değildir). Madeni para çıktı histogramı, bir faktöre göre azalan çubuklara sahip değildir.2Her adımda! Bu, bu açıklamada "sezgilere" yapılan itiraz ile bildirilen bazı zorlukların olabileceğini düşündürmektedir.
whuber

5
Bu cevap çoğunlukla saçma. Adil bir madeni paradan atılmamış sayılar, olasılıkları olan baş sayısının dağılımına neden olmaz.18,14,12,14,18; Gerçekten de bir olasılık kütle fonksiyonu bile değil! Ne de üst üste kafa sayısının soru ile ilgisi yoktur.
Dilip Sarwate
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.