Örneklem büyüklüğünü artırmak neden örnekleme değişimini düşürür?


35

Büyük fotoğraf:

Örneklem büyüklüğünün arttırılmasının denemenin gücünü nasıl artırdığını anlamaya çalışıyorum. Öğretim elemanımın slaytları bunu, biri normal olmayan hipotez için diğeri alternatif hipotez için olan ve aralarındaki bir karar eşiğindeki 2 normal dağılımın resmi ile açıklar. Artan örneklem büyüklüğünün varyansı azaltacağını ve böylece daha yüksek kurtoza neden olacağını, böylece eğrilerdeki paylaşılan alanı azalttığını ve böylece bir tip II hata olasılığının artacağını savunuyorlar.

Küçük resim:

Daha büyük bir örneklem büyüklüğünün varyansı nasıl düşüreceğini anlamıyorum.
Örnek varyansı hesapladığınızı ve normal dağılımda parametre olarak kullandığınızı varsayıyorum.

Denedim:

  • googling , ancak çoğu kabul edilen cevap 0 oy hakkına sahiptir veya sadece örneklerdir
  • Düşünme : Büyük sayılar yasasına göre her değer, varsaydığımız normal dağılıma göre muhtemel değeri etrafında dengelenmelidir. Bu nedenle varyans, varsayılan normal dağılımımızın varyansına yakınlaşmalıdır. Ancak bu normal dağılımın varyansı nedir ve asgari bir değer mi yani örneklem varyansımızın bu değere düştüğünden emin olabilir miyiz ?

Düşünce denemeniz normal olarak dağıtılmış verilerle ilgilidir ancak aynı zamanda birçok başka dağıtımdan elde edilen veriler için de geçerlidir (@Aksakal tarafından belirtildiği gibi, hepsi değil! Binom veriler için güç ve standart hata numune boyutu ile değişir nasıl iyi tartışma var stats.stackexchange.com/q/87730/22228
Gümüş Balık

1
CrossValidated'te yeniyken, tatmin edici bir cevap aldığınızı kabul ederseniz, solundaki yeşil bir onay işaretini tıklatarak "kabul edildi" olarak işaretlemelisiniz. Bu, cevaplayıcı için ek bir itibar sağlar ve soruyu çözüldüğü gibi gösterir.
amip diyor Reinstate Monica

Bunu böyle düşünüyorum: Her yeni noktanın kendine özgü bilgileri var. Sonsuz noktaların kusursuz bir tahminde bulunabilecek kadarı var. Gittikçe daha fazla yeni örnekleme noktası ekledikçe, mükemmel bir tahmine sahip olmamız gereken bilgiler ile gerçekte sahip olduğumuz bilgiler arasındaki fark gittikçe küçülüyor.
EngrStudent - Monica

Karışıklık kaynağı budur: azalan örnek varyans değil, örnek varyansın varyansıdır. Örnek varyansı bir tahmin edicidir (dolayısıyla rastgele bir değişkendir). Verileriniz normal bir N'den (0, 5) geliyorsa, örnek varyansı 5'e yakın olacaktır. Ne kadar yakın? Örnek varyansı için tahmin edicinizin varyansına bağlıdır. 100 veri noktasıyla, 4.92 gibi bir şey bulabilirsiniz. 1000 ile, 4.98 gibi bir şey bulacaksınız. 10000 ile 5.0001'i bulacaksınız. Öyleyse, ölçümlerinizin doğruluğu, ölçümlerinizin kendisinde değil, artar.
Karınca

Yanıtlar:


32

Standart ortalama sapmaları bireysel gözlemlerin standart sapmalarından daha küçüktür. [Burada sonlu popülasyon varyansı ile bağımsız, aynı şekilde dağıtılmış gözlemler yapacağım; ilk iki koşulu gevşetirseniz benzer bir şey söylenebilir.]

Bu, iki rastgele değişkenin toplamının standart sapmasının, standart sapmaların toplamından daha küçük olması gerçeğinin bir sonucudur (sadece iki değişken kusursuz bir şekilde ilişkilendirildiğinde eşit olabilir).

Aslında, ilişkisiz rastgele değişkenlerle uğraşırken, daha spesifik bir şey söyleyebiliriz: değişkenlerin toplamının varyansı, varyanslarının toplamıdır.

Bu, bağımsız (hatta sadece ilişkisiz) ile aynı dağılıma göre değiştiği anlamına gelir, ortalamanın varyansı, bir bireyin örneklem büyüklüğüne bölünmüş varyansıdır .n

Buna göre bağımsız (hatta sadece ilişkisiz) ile aynı dağılımla değişir, ortalamalarının standart sapması, bir bireyin standart büyüklüğünün kare büyüklüğünün kare kökü ile bölünmesidir:n

σX¯=σ/n .

Böylece, daha fazla veri ekledikçe, grup araçlarının artan bir şekilde kesin tahminlerine sahip olursunuz. Benzer bir etki regresyon problemlerinde de geçerlidir.

Örnek boyutunu artırarak ortalamaların daha kesin tahminlerini alabildiğimiz için, birbirine çok yakın olan araçları birbirinden daha kolay ayırt edebiliyoruz - dağılımlar biraz üst üste gelse de, büyük bir örneklem büyüklüğü alarak yine de tahmin edebiliriz. nüfus, aynı olmadığını söyleyebilecek kadar kesin demektir.


8

N arttığında daralan değişkenlik, genellikle standart hata olarak ifade edilen örnek ortalamasının değişkenliğidir. Veya, diğer bir deyişle, örnek ortalamanın doğruluğunun kesinliği artmaktadır.

3 erkek ve 3 kadının toplandığı ve boylarını ölçtüğün bir deney yaptığını hayal et. Her grubun ortalama yüksekliğinin, kadın ve erkeklerin ayrı popülasyonlarının gerçek ortalaması olduğuna ne kadar eminsiniz? Hiç emin olamayacağınızı düşünmeliyim. Kolayca 3 yeni numune toplayabilir ve ilkinden birkaç santim yeni araçlar bulabilirsiniz. Bunun gibi tekrarlanan deneylerin birçoğu, kadınların erkeklerden daha uzun olduğunu söylemesine neden olabilir, çünkü araçlar çok değişecektir. Düşük bir N ile, numuneden ortalama olarak pek bir kesinliğe sahip değilsiniz ve numuneler arasında çok değişkenlik gösterir.

Şimdi her grupta 10.000 gözlem düşünün. Birbirinden çok farklı anlamına gelen 10.000 yeni örnek bulmak oldukça zor olacak. Çok daha az değişken olacaklardır ve hassasiyetlerinden daha emin olacaksınız.

Bu düşünce çizgisini kabul ederseniz, istatistiklerinizi hesaplamalarınıza standart hata olarak ekleyebiliriz. Denkleminden de anlaşılacağı gibi, bir parametrenin , (n arttıkça daha doğru olması gerekir), her zaman n, ile artan bir değere bölünür . Bu standart hata, hesaplamalarınızdaki araçların veya etkilerin değişkenliğini gösterir. Ne kadar küçük olursa, istatistiksel testiniz o kadar güçlü olur.σn

Burada, standart bir hata ile ilk denemenin birçok kopyasının araçlarının standart sapması arasındaki ilişkiyi göstermek için R'deki küçük bir simülasyon gösterilmektedir. Bu durumda ortalama 100 nüfuslu ve 15 standart sapma ile başlayacağız.

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

Nihai standart sapmanın teorik standart hataya ne kadar yakın olduğuna dikkat edin. Burada n değişkeni ile oynayarak değişkenlik ölçüsünün n arttıkça küçüleceğini görebilirsiniz.

[Bir yana, grafiklerdeki kurtosis gerçekten değişmiyor (normal dağılımlar olduğu varsayılarak). Varyansı düşürmek kurtozu değiştirmez ancak dağılım daha dar görünecektir. Kurtoz değişimlerini görsel olarak incelemenin tek yolu, dağılımları aynı ölçekte koymaktır.]


haklıydın, gelecekteki
rolüm hakkında

İki şey tamamen açık değildir: (1) OP'nin örnek araçların dağıtımlarından bahsettikleri çan eğrileri mi? (2) Hem kontrol grubu örneklerinin ortalamasının dağılımı hem de deney grubu örneklerinin ortalamasının dağılımı için örneklem büyüklükleri dikkate alınıyor mu?
Lenar Hoyt

4

Amerikan vatandaşlarının ortalama ağırlığının ne olduğunu bilmek istiyorsanız, ideal durumda hemen her vatandaştan ölçeklere basmasını ve veriyi toplamasını isteyin. Kesin bir cevap alırsın . Bu çok zordur, bu yüzden belki de birkaç vatandaşın ölçeğe basması, ortalamasını hesaplaması ve popülasyonun ortalaması hakkında bir fikir edinmesi gerekebilir. Örnek ortalamasının nüfus ortalamasına tam olarak eşit olmasını bekler misiniz ? Umarım değildir.

Şimdi, daha fazla insanınız olursa, bir noktada nüfus ortalamasına daha yakın olacağımıza katılıyor musunuz? Yapmalıyız değil mi? Sonunda elde edebileceğimiz en fazla insan tüm nüfus ve bunun anlamı da aradığımız şey. Sezgi budur.

Bu idealize edilmiş bir düşünce deneyiydi. Gerçekte, bazı komplikasyonlar var. Size ikinizi vereceğim.

  • Verilerin bir Cauchy dağılımından geldiğini hayal edin . Numunenizi sonsuz bir şekilde artırabilirsiniz, ancak varyans azalmaz. Bu dağılımın popülasyon varyansı yoktur. Aslında, kesinlikle konuşursak, bunun da hiçbir örneği yoktur. Bu üzücü. Şaşırtıcı bir şekilde, bu dağılım oldukça gerçektir, burada ve fizikte ortaya çıkıyor.
  • Amerikan vatandaşlarının ortalama ağırlığını belirleme görevi ile devam etmeye karar verdiğinizi hayal edin. Demek ölçeğinizi alıp evden eve gidersiniz. Bu sizi uzun yıllar alacaktır. Milyon gözlem topladığınızda, veri kümenizdeki bazı vatandaşların ağırlıkları çok değişmiş, bazıları ölmüş, vb. Buradaki örneklem büyüklüğünün artması size yardımcı olmuyor

1
İlk cümlenizde "ortalama ağırlık" demek istediğinizden şüpheleniyorum. Düşünce deneyini kullanmayı seviyorum. Ölçüm aracınızdan başka bir komplikasyon gelebilir - yani aşınacak ölçekler paralaks hatası veya başka değişkenlik getiren kullanıcı hatası olabilir.
MarkR

1

Büyük Sayılar Yasası'nın , örneklem büyüklüğü arttığında neden varyansın (standart hata) azaldığını açıkladığına inanıyorum . Vikipedi'nin bu konudaki yazısı şöyle:

Yasaya göre, çok sayıda denemeden elde edilen sonuçların ortalaması beklenen değere yakın olmalı ve daha fazla deneme yapıldığı için daha yakın olma eğiliminde olacaktır.

Merkezi Limit Teoremi açısından:

Tek bir rastgele numune çizilirken, numune ne kadar büyükse, numune ortalaması popülasyon ortalamasına o kadar yakındır (yukarıdaki alıntıda, "deneme boyutu" olarak "örnek boyutu" olarak düşünün, bu nedenle her "deneme" bir gözlemdir) ). Bu nedenle, sonsuz sayıda rasgele örnek çizerken, örnekleme dağılımının varyansı, her bir örneğin büyüklüğü daha düşük olacaktır.

Başka bir deyişle, her bir örnek küçük yerine büyük olduğunda zil şekli daralacaktır, çünkü bu şekilde her bir örnek ortalaması zilin merkezine daha yakın olacaktır.


0

Numune büyüklüğü arttıkça, numune varyansı (gözlemler arasındaki değişiklik) artar, ancak numune ortalamasının (standart hata) varyansı düşer ve dolayısıyla hassasiyet artar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.