Bu yazının uzunluğu için şimdiden özür dilerim: kamuoyunda serbest bırakmam biraz tedirgin, çünkü okumanın biraz zaman alması ve şüphesiz yazım hataları ve açıklayıcı gecikmeleri var. Ancak burada, büyüleyici bir konuya ilgi duyanlar için, CLT'nin bir veya daha fazla bölümünü bir veya daha fazlasını tanımlamanızın, kendi yanıtlarınızda daha fazla ayrıntıya girmeniz için cesaretlendirmesi umuduyla sunulmuştur.
CLT'yi "açıklama" girişimlerinin çoğu, illüstrasyonlar veya sadece doğru olduğunu iddia eden ifadelerdir. Gerçekten etkileyici, doğru bir açıklama çok fazla şeyi açıklamak zorunda kalacaktı.
Buna daha fazla bakmadan önce, CLT'nin ne dediği konusunda net olalım. Hepinizin bildiği gibi, genelliğine göre çeşitlilik gösteren versiyonlar var. Ortak bağlam, ortak bir olasılık alanı üzerindeki belirli fonksiyon türleri olan rastgele değişkenlerin bir dizisidir. Titizlikle tutan sezgisel açıklamalar için, olasılık alanını ayırt edilebilir nesneler içeren bir kutu olarak düşünmeyi faydalı buluyorum. Bu nesnelerin ne olduğu önemli değil ama ben onlara "bilet" diyeceğim. Biletleri iyice karıştırarak ve bir tanesini çizerek bir kutunun "gözlemini" yaparız; bu bilet gözlemi oluşturur. Daha sonra analiz için kaydettikten sonra, bileti kutuya geri göndeririz, böylece içerikleri değişmeden kalır.Bir "rastgele değişken", temel olarak her bir biletin üzerine yazılmış bir sayıdır.
1733 yılında, Abraham de Moivre , biletlerin sayısının sadece sıfır ve "Bernoulli denemeleri" olan tek bir kutu olduğu ve her birinin sayısının mevcut olduğunu düşündü. O hale hayal fiziksel olarak bağımsız bir değerler dizisi elde, gözlemlerini x 1 , x 2 , ... , x n sıfır veya birdir hepsi. Toplamı bu değerlerin, Y , n = x 1 + x 2 + ... + x nnx1,x2,…,xnyn=x1+x2+…+xn, rastgele çünkü toplamın içindeki terimlerdir. Bu nedenle, bu prosedürü birçok kez tekrarlayabilirsek, çeşitli toplamlar ( ile n arasında değişen tam sayılar).0n ) farklı frekanslarda ile görünür - toplam oranlarını. (Aşağıdaki histogramlara bakınız.)
Şimdi bir kişi bekler - ve bu doğru - çok büyük değerleri için , tüm frekansların oldukça küçük olacağıdır. Biz "bir sınırı geçmeye" girişimi ya da "let şekilde kalın (ya da aptalca) olmak olsaydı n gidin ∞ ", hepimiz frekansları indirgendiği doğru sonuçlandırmak istiyorum 0nn∞0 . Ancak , sadece frekansların bir histogramını çizersek , eksenlerinin nasıl etiketlendiğine hiç dikkat etmeden, büyük için histogramların hepsinin aynı gibi görünmeye başladığını görürüz : bir bakıma, bu histogramlar , frekanslar olsa bile bir sınıra yaklaşır. kendileri sıfıra gider.n
Bu histogramlar, elde etme prosedürünü tekrarlamanın sonuçlarını göstermektedir. birçok kez. nynn başlıklarda "deneme sayısı" dır.
Buradaki içgörü önce histogramı çizip eksenlerini daha sonra etiketlemektir . Büyük ile histogram n / 2 (yatay eksende) etrafında ortalanmış geniş bir değer aralığını ve ufak bir değer aralığını (dikey eksende) kapsar çünkü bireysel frekanslar oldukça küçüktür. Çizim bölgesine bu eğri uydurma nedenle her ikisi de gerekli olan vites değiştirme ve yeniden olçeklendirmenin histogramının. Bunun matematiksel açıklaması, her n bazı merkezi değerlerinn/2n (ille benzersiz değil!) Histogramı ve bazı ölçek değerin konumlandırmak için s nmnsn(mutlaka benzersiz değil!) eksenlerin içine sığdırmak için. Bu değiştirerek matematiksel yapılabilir için z , n = ( y , n - m , n ) / s nynzn=(yn−mn)/sn .
Bir histogramın , yatay eksen arasındaki alanlara göre frekansları temsil ettiğini unutmayın . Bu nedenle , bu histogramların büyük değerleri için nihai kararlılığı bu nedenle alan olarak belirtilmelidir. n Yani, sizin gibi değerlerin herhangi aralığını seçmek, gelen söylemek etmek b > a kadar ve n artar hıstogramının kısmının bölgeyi izlemek z n yatay aralığını kapsayanab>anzn . CLT birkaç iddia bir şeyler:(a,b]
Ne olursa olsun ve b vardırab seçtiğimiz takdirde dizileri ve s n bağlı değildir biçimde (uygun birmnsna veya), bu alan gerçekten n'nin büyüdükçebir sınıra yaklaşır.bn
Dizileri vemn sadece bağlıdır şekilde seçilebilir n , kutuda değerlerin ortalamasını ve bu değerlerin yayılmasıyla bazı ölçüler - yani ne olursa olsun içinde ne olduğu - ama başka hiçbir şey kutu, limit her zaman aynıdır. (Bu evrensellik özelliği muhteşem.)snn
Spesifik olarak, bu sınırlayıcı alan y = exp ( - z 2 eğrisinin altındaki alandır)y=exp(−z2/2)/2π−−√ arası ile bab : bu evrensel sınırlayıcı histogram formülüdür.
CLT’nin ilk genellemesi;
Kutu, sıfırlara ve rakamlara ek olarak rakamlar içerebiliyorsa , aynı sonuçlar (kutudaki son derece büyük veya küçük sayıların oranlarının kesin ve basit bir nicel ifadeye sahip olan bir kriterin "çok iyi" olmaması şartıyla). .
Bir sonraki genelleme ve belki de en şaşırtıcı olanı, bu tek kutu biletin, sıralı ve uzun bir kutu sıralı biletle değiştirilmesidir. Her kutunun biletleri farklı oranlarda farklı numaralara sahip olabilir. gözlemi ilk kutudan bir bilet çekilerek yapılır,x1 , böylece ikinci kutu gelir ve.x2
Tam olarak aynı sonuçlar , kutuların içeriğinin “çok farklı olmamak” anlamına gelmesi koşuluyla geçerlidir (“çok farklı değil” anlamına gelen şeyin kesin, ancak farklı, nicel karakterizasyonları vardır; şaşırtıcı bir enlem değeri sağlarlar).
Bu beş iddia, en azından açıklamaya ihtiyaç duyuyor. Fazlası var. Kurulumun merak uyandıran bazı yönleri tüm ifadelerde gizlidir. Örneğin,
Toplamın nesi özel ? Neden, ürünleri veya maksimumları gibi diğer matematiksel sayı kombinasyonları için merkezi limit teoremlerine sahip değiliz? (Yaptığımız anlaşılıyor, ama çok genel değiller veya CLT'ye indirgenemezlerse, her zaman böyle temiz, basit bir sonuca sahip değiller.) ve s n dizileri benzersiz değil ama onlar neredeyse sonunda onlar toplamının beklenti yaklaşık zorunda anlamda benzersiz n biletleri ve standart sapma sırasıyla (CLT ilk iki tablolara eşittir hangi toplamı, bir √mnsnnn−−√ kutunun standart sapma kez).
Standart sapma, değerlerin yayılmasının bir ölçüsüdür, ancak hiçbir şekilde tek ya da tarihsel olarak ya da birçok uygulama için en "doğal" değildir. ( Örneğin, birçok insan medyandan medyan mutlak bir sapma gibi bir şey seçerdi.)
SD neden bu kadar önemli bir şekilde görünüyor?
Sınırlayıcı histogram için formülü düşünün: kim böyle bir form almasını bekler ki? Olasılık yoğunluğunun logaritmasının ikinci dereceden bir fonksiyon olduğunu söylüyor . Neden? Bunun için bazı sezgisel veya açık, zorlayıcı bir açıklama var mı?
Srikant'ın zorlayıcı sezgisellik ve basitlik ölçütlerini karşılayacak kadar basit cevaplar sağlama hedefine ulaşamadığımı itiraf ediyorum, ancak bu arka planı başkalarının birçok boşluğu doldurmak için ilham alabileceği umuduyla çizdim. Sonuçta iyi bir gösterimin sonuçta ile β n = b s n + m n arasındaki değerlerin x 1 + x 2 + ... + x nαn=asn+mnβn=bsn+mnx1+x2+…+xn. CLT tek kutu sürümüne geri dönecek olursak, bir simetrik dağılım durum ele basittir: kendi medyan onun ortalamasını eşittir, bu nedenle% 50 şans var kutunun ortalamasından daha az olacaktır ve% 50'lik şans bu x i , ortalamasından daha büyük olacak. Ayrıca, n yeterince büyük olduğunda , ortalamanın pozitif sapmaları, ortalamadaki negatif sapmaları telafi etmelidir. (Bu sadece el sallayarak değil, dikkatli bir gerekçe gerektirir.) Bu yüzden öncelikle sayma konusunda endişelenmeliyiz.xixin pozitif ve negatif sapmaların ve sadece büyüklükleriyle ilgili ikincil bir endişemiz olması gerekir . (Buraya yazdığım tüm şeyler arasında, CLT'nin neden çalıştığı hakkında bazı sezgiler sağlama konusunda en yararlı olabilir. Aslında, CLT'nin genelleştirmelerini gerçeğe dönüştürmek için gerekli teknik varsayımlar, temelde bu olasılığın dışlanmasının çeşitli yolları olduğunu göstermektedir. nadir görülen dev sapmalar, sınırlayıcı histogramın ortaya çıkmasını önleyecek kadar dengeyi bozacaktır.)
Bu, bir şekilde, CLT'nin ilk genellemesinin neden de Moivre'nin orijinal Bernoulli deneme sürümünde olmayan bir şeyi gerçekten ortaya çıkarmadığını gösteriyor.
Orada benziyor Bu noktada biraz hesap yapmak ama bunun için başka bir şey değildir: biz saymak gerekir ortalamasından pozitif sapmaların sayısı, herhangi önceden belirlenmiş değer ile negatif sapmaların sayısından farklı olabilir hangi farklı şekillerde sayısını açıkça görüldüğü üzere k , - n , - n + 2 , … , n - 2 , n den biri . Ancak ufukta ufak hatalar sınır içinde ortadan kalkacağından, kesin olarak saymak zorunda değiliz; sadece sayıları tahmin etmemiz gerekiyor. Bu amaçla bunu bilmek yeterlikk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
equals n−k+1k
times the number of ways to get k−1 positive and n−k+1 negative values.
(Bu çok basit bir sonuçtur, bu yüzden gerekçeyi yazmak için uğraşmayacağım.) Şimdi toptan satış yapıyoruz. Maksimum frekans, olabildiğince n / 2'ye yakın olduğunda meydana gelir (ayrıca temel). M = n / 2 yazalım . Daha sonra, maksimum frekansa göre, m + j + 1 pozitif sapmaların frekansı ( j ≥ 0 ) ürün tarafından tahmin edilir.kn/2m=n/2m+j+1j≥0
m+1m+1mm+2⋯m−j+1m+j+1
=1−1/(m+1)1+1/(m+1)1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
De Moivre'nin yazmasından 135 yıl önce, John Napier çarpmayı kolaylaştırmak için logaritmalar icat etti, bundan yararlanalım. Yaklaşımın kullanılması
log(1−x1+x)∼−2x,
Göreceli frekans günlüğünün yaklaşık olduğunu
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Toplu hata ile orantılı olduğu için , bu da Resim çalışması gerektiğini J 4 göre küçük olduğu m 3 . Bu, gerekenden daha geniş bir j değerleri aralığını kapsar . (Bu yaklaşım için çalışmak için yeterli j yalnızca sırasına √j4/m3j4m3jj asimptotik çok daha küçüktürm 3 / 4m−−√m3/4 ).
Açıkçası, CLT'deki diğer iddiaları haklı çıkarmak için bu türden çok daha fazla analiz sunulmalı, fakat zaman, mekan ve enerji tükeniyor ve muhtemelen bunu okumaya başlayan kişilerin% 90'ını kaybettim. Bu basit yaklaşım olsa da, nasıl anlaşılacağı Moivre aslen evrensel bir sınırlama dağıtım onun logaritma bir kuadratik fonksiyon olduğunu, olduğu şüpheli olabilirdi de, ve uygun ölçek faktörün olduğunu orantılı olmalıdır √sn (nedeniylej2/m=2j2/n=2(j/ √n−−√). j2/m=2j2/n=2(j/n−−√)2 Bu önemli nicel ilişkinin, bir tür matematiksel bilgi ve muhakeme gerektirmeden nasıl açıklanabileceğini hayal etmek zordur; daha az bir şey sınırlama eğrisinin kesin şeklini tam bir gizem bırakacaktır.