Merkezi limit teoremi neden tek bir örnekle çalışır?


12

Her zaman, her örnek yeterince büyük olacak şekilde, tekrarlanan örneklemede CLT'nin çalıştığı öğretildi. Mesela 1.000.000 vatandaşım var. CLT anlayışım, yüksekliklerinin dağılımı normal olmasa bile, 50 kişiden 1000 numune almış olsaydım (yani her biri 50 vatandaştan 1000 anket yapsaydım), daha sonra her numune için ortalama yüksekliklerini, bu numunenin dağılımını hesapladım. anlamına gelir normal.

Ancak, araştırmacıların tekrarlanan örnekler aldığı hiçbir gerçek dünya vakası görmedim. Bunun yerine, büyük bir örnek alıyorlar (yani 50.000 vatandaşa boyları hakkında anket yapıyorlar) ve bundan çalışıyorlar.

İstatistik kitapları neden tekrarlanan örnekleme öğretiyor ve gerçek dünyada araştırmacılar sadece tek bir örnek yapıyor?

Edit: Ben düşünüyorum gerçek dünya vaka 50.000 twitter kullanıcılarının bir veri seti üzerinde istatistik yapıyor. Bu veri kümesinin tekrarlanan örnekler olmadığı açıktır, sadece 50.000'lik büyük bir örnektir.


50.000'den 1000 numune almak, 50.000'den bağımsız olarak 1000 tek numune almakla hemen hemen aynıdır. Örnek ne kadar küçükse (ya da evren de o kadar büyük olur) daha çok benzer görünürler.
Thomas Ahle

Yanıtlar:


14

CLT (çeşitli formları bazılarında en azından) olarak sınırı içinde söyler n tek standardize numune dağıtımı ortalama ( X¯-μσ/n

n=50n=50,000

X¯

Açıkçası bu CLT'yi göstermiyor, Berry-Esseen teoremini göstermeye daha yakın, çünkü normalliğe yaklaşımın gelme oranı hakkında bir şey gösteriyor - ama bu da bizi CLT'ye götürecek, bu yüzden motivasyon olarak yeterince iyi hizmet eder (ve aslında, Berry-Esseen gibi bir şey, insanların zaten sınırlı örneklerde gerçekten kullanmak istediklerine yaklaşır, böylece motivasyon bir anlamda merkezi sınır teoreminin kendisinden daha yararlı olabilir) .

bu numune araçlarının dağılımı normal olacaktır.

Hayır, normal değillerdi ama pratikte normale çok yakın olacaklardı (yükseklikler biraz eğik ama çok eğik değil ).

n=50

Düşündüğüm gerçek dünya örneği, 50.000 twitter kullanıcısının veri kümesinde istatistikler yapmak. Bu veri kümesinin tekrarlanan örnekler olmadığı açıktır, sadece 50.000'lik büyük bir örnektir.

Birçok dağıtım için, 50.000 öğenin örnek ortalaması normal dağılıma çok yakın olacaktır - ancak n = 50.000'de bile normal dağılıma çok yakın olacağınız garanti edilmez (eğer münferit öğelerin dağıtımı yeterli ise) örneğin eğriltilmişse, numune araçlarının dağılımı yine de normal bir yaklaşımı savunulamaz kılacak kadar eğik olabilir).

( Berry-Esseen teoremi bizi tam olarak bu sorunun meydana gelebileceğini tahmin etmemize yol açacaktır - ve açıkça gösteriliyor. CLT'nin uygulandığı ancak n = 50.000'in standartlaştırılmış örnek normale yakındır.)


50.000'in yeterince büyük olup olmadığını kontrol etmek için, örneğin R'de bir simülasyon yapılabilir, doğru mu? Numunenin ortalama ve standart sapmasını kullanırdım, ancak örneğimin aynı dağılımından taklit etmeyi nasıl sağlayabilirim?
Amonet

Kesin olarak, nüfus dağılımından simüle etmeniz gerekir. Sen olabilir (bu ön yükleme ile akrabadır) nüfus dağılımının bir tahmin olarak Numunenizin dağılımını tedavi - ama bu tür bir amaç için yeterli olmayacaktır. Örnek olarak, bir Cauchy dağılımından bir örnek almayı ve daha sonra bunun yerine yenisiyle örneklemeyi düşünün. (gittikçe daha büyük örnekler için), yeniden örneklenen araçların dağılımı "yeterince normal" görünene kadar. Her zaman bazı sınırlı örneklem büyüklüğünün yeterli olduğu sonucuna varacaksınız, ancak gerçekte asla olmayacaktır.
Glen_b
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.