Nüfus değişimini nasıl bilebiliriz?


10

Hipotez testinde yaygın bir soru popülasyon varyansı nedir? Sorum şu: Nüfus varyansını nasıl bilebiliriz? Tüm dağılımı biliyor olsaydık , tüm nüfusun ortalamasını da biliriz . O zaman hipotez testinin anlamı nedir?


İlgili bazı literatür: nber.org/papers/w20325
dv_bn

Ortalama hakkında hiçbir şey bilmeden varyansı bilebilirsiniz. Örneğin, varyans popülasyondaki tüm değer farklılıklarının karelerinden geri kazanılabilir, ancak bu farklılıklar ortalama hakkında bilgi vermez. Ne olursa olsun, bu yazıdaki ifadelerin ve soruların hipotez testi noktası hakkında soruna nasıl yol açtığını görmüyorum.
whuber

Yanıtlar:


10

Bu sorunun gerçekten İstatistik 101'in (istatistiklere giriş) dışında "sık sık" ortaya çıkacağından emin değilim. Hiç gördüğümden emin değilim. Öte yandan, giriş derslerini öğretirken materyali bu şekilde sunarız, çünkü mantıklı bir ilerleme sağlar: Sadece bir grubun olduğu basit bir durumla başlarsınız ve varyansı bilirsiniz, sonra yapmadığınız yere ilerlersiniz varyansı bilmek, sonra iki grubun bulunduğu yere ilerleyin (ancak eşit varyansla), vb.

Biraz farklı bir noktaya değinmek için, varyansı biliyorsak neden hipotez testiyle uğraşacağımızı soruyorsunuz, bu nedenle ortalamayı da bilmeliyiz. İkinci kısım mantıklıdır, ancak ilk kısım bir yanlış anlamadır: Bildiğimiz ortalama, sıfır hipotezi altındaki ortalama olacaktır. Test ettiğimiz şey bu. @ StephanKolassa'nın IQ skorları örneğini ele alalım. Ortalamanın 100 ve standart sapmanın 15 olduğunu biliyoruz; test ettiğimiz şey, grubumuzun (örneğin, solak kızıllar veya belki de giriş istatistikleri öğrencileri) bundan farklı olması.


2
(+1) Belki de "bir popülasyondan örnekleme" tam anlamıyla alınacak bir şeyden ziyade veri oluşturma süreci hakkında bir düşünme yöntemi olduğunda daha fazla ortaya çıkar. Örneğin bir ölçüm cihazının hassasiyetini bilmek.
Scortchi - Monica'yı eski durumuna döndürün

Gung, 20 yılı aşkın bir kariyere sahip bir uygulayıcı olarak, bu mesele deneyimlerime göre sizden daha sık ortaya çıktı. "Tartışmaların" gerçekleştiğini "sık sık" önermiyorum. Bununla birlikte, ve İstatistikler 101 ile ilgili olarak, tartışmalar, bir çalışma veya projenin özellikleriyle ilgili çok az şey çözen ya da hiçbir şey çözmeyen kırmızı ringalardı - birisi sadece soruyu sormak için zeka görünümü yaratmak istedi.
Mike Hunter

1
@DJohnson, sanırım üzerinde çalıştığınız konulara bağlı.
gung - Monica'yı eski

4

Çoğunlukla nüfus varyansını bu şekilde bilmiyoruz - ancak farklı bir örnekten çok güvenilir bir tahminimiz var. Örneğin, burada ortalama bir penguen ağırlığının düşüp düşmediğini değerlendirme örneğidir , burada küçük-ish örneğindeki ortalamayı, ancak daha büyük bağımsız bir numuneden sapmayı kullanırız. Tabii ki, bu her iki toplumda varyansın aynı olduğunu varsayar.

Farklı bir örnek, klasik IQ ölçekleri olabilir. Bunlar, gerçekten büyük örnekler kullanılarak ortalama 100 ve standart sapma 15 olacak şekilde normalleştirilir . Daha sonra belirli bir örnek alabiliriz (diyelim ki 50 solak kızıl saçlı) ve "bilinen" varyans olarak 15 ^ 2 kullanarak ortalama IQ'larının 100'den önemli ölçüde daha büyük olup olmadığını sorabiliriz. Tabii ki, bir kez daha, bu , iki örnek arasında varyansın gerçekten eşit olup olmadığı sorusunu akla getiriyor - sonuçta, araçların farklı olup olmadığını test ediyoruz, bu yüzden neden varyanslar eşit olmalı?

Alt satır: endişeleriniz geçerlidir ve genellikle bilinen anlarla yapılan testler sadece didaktik amaçlara hizmet eder. İstatistik derslerinde, genellikle hemen tahmin edilen anları kullanan testlerle takip edilir .


2

Popülasyon varyansını bilmenin tek yolu tüm popülasyonu ölçmektir.

Bununla birlikte, tüm popülasyonun ölçülmesi genellikle mümkün değildir; para, araçlar, personel ve erişim gibi kaynaklar gerektirir. Bu nedenle popülasyonları örnekliyoruz; nüfusun bir alt kümesini ölçüyor. Örnekleme süreci dikkatlice ve popülasyonu temsil eden örnek bir popülasyon yaratmak amacıyla tasarlanmalıdır; iki temel hususu göz önünde bulundurmak - örneklem büyüklüğü ve örnekleme tekniği.

Oyuncak örneği: İsveç'in yetişkin nüfusu için ağırlıktaki varyansı tahmin etmek istiyorsunuz. Yaklaşık 9.5 milyon İsveçli var, bu yüzden dışarı çıkıp hepsini ölçmeniz olası değil. Bu nedenle, gerçek nüfus içi varyansı tahmin edebileceğiniz örnek bir popülasyonu ölçmeniz gerekir.

İsveç nüfusunu örneklemek için dışarı çıkıyorsunuz. Bunu yapmak için Stockholm şehir merkezinde durun ve popüler hayali İsveç burger zinciri Burger Kungen'in hemen dışında durun . Aslında, yağmur ve soğuk (yaz olmalı) böylece restoran içinde durmak. Burada dört kişiyi tartıyorsunuz.

Şansınız, örneğiniz İsveç halkını çok iyi yansıtmayacaktır. Sahip olduğun şey, Stockholm'de bir burger restoranında olan insanların bir örneğidir. Bu kötü bir örnekleme tekniğidir çünkü tahmin etmeye çalıştığınız popülasyonun adil bir temsilini vermeyerek sonuca ağırlık vermesi muhtemeldir. Ayrıca, küçük bir örneklem büyüklüğünüz varbu nedenle nüfusun uç noktalarında bulunan dört kişiyi seçme riskiniz yüksektir; çok hafif veya çok ağırdır. 1000 kişiyi örneklediyseniz, örnekleme yanlılığına neden olma olasılığınız düşüktür; olağandışı olan 1000 kişiyi seçmek, olağandışı olan dört kişiyi seçmekten çok daha az olasıdır. Daha büyük bir örneklem büyüklüğü size en azından Burger Kungen'in müşterileri arasındaki ağırlık ve varyansın daha doğru bir tahminini verecektir.

resim açıklamasını buraya girin

Histogram örnekleme tekniğinin etkisini gösterir, gri dağılım Burger Kungen'de yemek yemeyen İsveç nüfusunu (ortalama 85 kg), kırmızı ise Burger Kungen (ortalama 100 kg) müşterilerinin nüfusunu temsil edebilir. ve mavi çizgiler örneklediğiniz dört kişi olabilir. Doğru örnekleme tekniğinin popülasyonu adil bir şekilde tartması gerekir ve bu durumda popülasyonun ~% 75'i, dolayısıyla ölçülen örneklerin% 75'i Burger Kungen müşterisi olmamalıdır.

Bu, birçok ankette önemli bir konudur. Örneğin, müşteri memnuniyeti anketlerine veya seçimlerdeki kamuoyu yoklamalarına cevap vermesi muhtemel insanlar, aşırı görüşlere sahip olanlar tarafından orantısız olarak temsil edilme eğilimindedir; daha az güçlü görüşlere sahip insanlar kendilerini ifade etme konusunda daha fazla rezerve edilmiş olma eğilimindedir.

Hipotez testinin noktası ( her zaman değil ), örneğin, iki popülasyonun birbirinden farklı olup olmadığını test etmektir. Örneğin Burger Kungen müşterileri Burger Kungen'de yemek yemeyen İsveçlilerden daha mı ağır? Bunu doğru bir şekilde test etme yeteneği, uygun örnekleme tekniğine ve yeterli numune boyutuna bağlıdır.


Test etmek için R kodu tüm bunları gerçekleştirir:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

Sonuçlar:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 


1

Ortalamanın bilinmediği ancak varyansın ne zaman bilindiğini düşünebileceğim tek gerçekçi örnek, sabit bir yarıçapa ve bilinmeyen bir merkeze sahip bir hiper kürede (hangi boyutta olursa olsun) noktaların rastgele örneklenmesidir . Bu problemin bilinmeyen bir ortalaması (kürenin merkezi) ancak sabit bir varyansı (kürenin kare yarıçapı) vardır. Bilinmeyen bir ortalama ancak bilinen bir varyansın olduğu başka gerçekçi örneklerin farkında değilim. (Ve açık olmak gerekirse: sadece diğer verilerden dış varyans tahminine sahip olmak bilinen bir varyans örneğidir. Ayrıca, diğer verilerden bu varyans tahminine sahipseniz, neden aynı değerden karşılık gelen ortalama bir tahmininiz yok? veri?)

Benim görüşüme göre, bilinmeyen bir ortalama ve bilinen varyansı olan testleri öğreten giriş istatistik dersleri bir anakronizmdir ve modern bir öğretim aracı olarak yanlış yönlendirilmiştir. Pedagojik olarak, bilinmeyen bir ortalama ve varyans için doğrudan T-testiyle başlamak ve z-testine, serbestlik derecesi büyük olduğunda (veya değil) asimtotik bir yaklaşım olarak davranmak daha iyidir hatta z-testini öğretmek bile zahmetlidir). Bilinen bir varyansın, ancak bilinmeyen bir ortalamanın olacağı durumların sayısı kaybolarak azdır ve genellikle bu (delicesine nadir) vakayı tanıtmak öğrencilere yanıltıcıdır.


0

Bazen uygulamalı problemlerde, fizik, ekonomi vb. Tarafından bize varyans hakkında bilgi veren ve belirsizliği olmayan nedenler vardır. Diğer zamanlarda, nüfus sonlu olabilir ve herkes hakkında bazı şeyler biliyor olabiliriz, ancak geri kalanını öğrenmek için istatistikleri örneklememiz ve yapmamız gerekir.

Genel olarak, endişeniz oldukça geçerlidir.


5
Fizik veya iktisattan varyansı bileceğimiz bir örnek hayal etmekte zorlanıyorum , ama ortalamayı değil. Kesikli dağılımlar için benzerdir. Somut bir örnek verebilir misiniz?
Stephan Kolassa

@StephanKolassa Fizik deney ölçümlerinin bir örnek olacağına inanıyorum - iyi bilinen bir varyansa (ölçüm hatası) sahip bir işlem veya ölçüm cihazımız olabilir, bu nedenle belirli bir olayı ölçerken varyansın aynı olduğunu varsayabilirsiniz, ancak sadece gerçek ortalamayı tahmin edebilir.
Peteris

2
@Peteris: bu mantıklı - ama daha önce not ettiğim gibi, daha önceki "kalibrasyon örnekleri" üzerinde tahmin edilen varyansın (cihazınızın) kulağa benzediği görülüyor . Belirsizliği olmayan teorik olarak türetilmiş bir varyansın (!) Farklı bir şey olmasını beklerdim.
Stephan Kolassa
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.