Hipotez testinde yaygın bir soru popülasyon varyansı nedir? Sorum şu: Nüfus varyansını nasıl bilebiliriz? Tüm dağılımı biliyor olsaydık , tüm nüfusun ortalamasını da biliriz . O zaman hipotez testinin anlamı nedir?
Hipotez testinde yaygın bir soru popülasyon varyansı nedir? Sorum şu: Nüfus varyansını nasıl bilebiliriz? Tüm dağılımı biliyor olsaydık , tüm nüfusun ortalamasını da biliriz . O zaman hipotez testinin anlamı nedir?
Yanıtlar:
Bu sorunun gerçekten İstatistik 101'in (istatistiklere giriş) dışında "sık sık" ortaya çıkacağından emin değilim. Hiç gördüğümden emin değilim. Öte yandan, giriş derslerini öğretirken materyali bu şekilde sunarız, çünkü mantıklı bir ilerleme sağlar: Sadece bir grubun olduğu basit bir durumla başlarsınız ve varyansı bilirsiniz, sonra yapmadığınız yere ilerlersiniz varyansı bilmek, sonra iki grubun bulunduğu yere ilerleyin (ancak eşit varyansla), vb.
Biraz farklı bir noktaya değinmek için, varyansı biliyorsak neden hipotez testiyle uğraşacağımızı soruyorsunuz, bu nedenle ortalamayı da bilmeliyiz. İkinci kısım mantıklıdır, ancak ilk kısım bir yanlış anlamadır: Bildiğimiz ortalama, sıfır hipotezi altındaki ortalama olacaktır. Test ettiğimiz şey bu. @ StephanKolassa'nın IQ skorları örneğini ele alalım. Ortalamanın 100 ve standart sapmanın 15 olduğunu biliyoruz; test ettiğimiz şey, grubumuzun (örneğin, solak kızıllar veya belki de giriş istatistikleri öğrencileri) bundan farklı olması.
Çoğunlukla nüfus varyansını bu şekilde bilmiyoruz - ancak farklı bir örnekten çok güvenilir bir tahminimiz var. Örneğin, burada ortalama bir penguen ağırlığının düşüp düşmediğini değerlendirme örneğidir , burada küçük-ish örneğindeki ortalamayı, ancak daha büyük bağımsız bir numuneden sapmayı kullanırız. Tabii ki, bu her iki toplumda varyansın aynı olduğunu varsayar.
Farklı bir örnek, klasik IQ ölçekleri olabilir. Bunlar, gerçekten büyük örnekler kullanılarak ortalama 100 ve standart sapma 15 olacak şekilde normalleştirilir . Daha sonra belirli bir örnek alabiliriz (diyelim ki 50 solak kızıl saçlı) ve "bilinen" varyans olarak 15 ^ 2 kullanarak ortalama IQ'larının 100'den önemli ölçüde daha büyük olup olmadığını sorabiliriz. Tabii ki, bir kez daha, bu , iki örnek arasında varyansın gerçekten eşit olup olmadığı sorusunu akla getiriyor - sonuçta, araçların farklı olup olmadığını test ediyoruz, bu yüzden neden varyanslar eşit olmalı?
Alt satır: endişeleriniz geçerlidir ve genellikle bilinen anlarla yapılan testler sadece didaktik amaçlara hizmet eder. İstatistik derslerinde, genellikle hemen tahmin edilen anları kullanan testlerle takip edilir .
Popülasyon varyansını bilmenin tek yolu tüm popülasyonu ölçmektir.
Bununla birlikte, tüm popülasyonun ölçülmesi genellikle mümkün değildir; para, araçlar, personel ve erişim gibi kaynaklar gerektirir. Bu nedenle popülasyonları örnekliyoruz; nüfusun bir alt kümesini ölçüyor. Örnekleme süreci dikkatlice ve popülasyonu temsil eden örnek bir popülasyon yaratmak amacıyla tasarlanmalıdır; iki temel hususu göz önünde bulundurmak - örneklem büyüklüğü ve örnekleme tekniği.
Oyuncak örneği: İsveç'in yetişkin nüfusu için ağırlıktaki varyansı tahmin etmek istiyorsunuz. Yaklaşık 9.5 milyon İsveçli var, bu yüzden dışarı çıkıp hepsini ölçmeniz olası değil. Bu nedenle, gerçek nüfus içi varyansı tahmin edebileceğiniz örnek bir popülasyonu ölçmeniz gerekir.
İsveç nüfusunu örneklemek için dışarı çıkıyorsunuz. Bunu yapmak için Stockholm şehir merkezinde durun ve popüler hayali İsveç burger zinciri Burger Kungen'in hemen dışında durun . Aslında, yağmur ve soğuk (yaz olmalı) böylece restoran içinde durmak. Burada dört kişiyi tartıyorsunuz.
Şansınız, örneğiniz İsveç halkını çok iyi yansıtmayacaktır. Sahip olduğun şey, Stockholm'de bir burger restoranında olan insanların bir örneğidir. Bu kötü bir örnekleme tekniğidir çünkü tahmin etmeye çalıştığınız popülasyonun adil bir temsilini vermeyerek sonuca ağırlık vermesi muhtemeldir. Ayrıca, küçük bir örneklem büyüklüğünüz varbu nedenle nüfusun uç noktalarında bulunan dört kişiyi seçme riskiniz yüksektir; çok hafif veya çok ağırdır. 1000 kişiyi örneklediyseniz, örnekleme yanlılığına neden olma olasılığınız düşüktür; olağandışı olan 1000 kişiyi seçmek, olağandışı olan dört kişiyi seçmekten çok daha az olasıdır. Daha büyük bir örneklem büyüklüğü size en azından Burger Kungen'in müşterileri arasındaki ağırlık ve varyansın daha doğru bir tahminini verecektir.
Histogram örnekleme tekniğinin etkisini gösterir, gri dağılım Burger Kungen'de yemek yemeyen İsveç nüfusunu (ortalama 85 kg), kırmızı ise Burger Kungen (ortalama 100 kg) müşterilerinin nüfusunu temsil edebilir. ve mavi çizgiler örneklediğiniz dört kişi olabilir. Doğru örnekleme tekniğinin popülasyonu adil bir şekilde tartması gerekir ve bu durumda popülasyonun ~% 75'i, dolayısıyla ölçülen örneklerin% 75'i Burger Kungen müşterisi olmamalıdır.
Bu, birçok ankette önemli bir konudur. Örneğin, müşteri memnuniyeti anketlerine veya seçimlerdeki kamuoyu yoklamalarına cevap vermesi muhtemel insanlar, aşırı görüşlere sahip olanlar tarafından orantısız olarak temsil edilme eğilimindedir; daha az güçlü görüşlere sahip insanlar kendilerini ifade etme konusunda daha fazla rezerve edilmiş olma eğilimindedir.
Hipotez testinin noktası ( her zaman değil ), örneğin, iki popülasyonun birbirinden farklı olup olmadığını test etmektir. Örneğin Burger Kungen müşterileri Burger Kungen'de yemek yemeyen İsveçlilerden daha mı ağır? Bunu doğru bir şekilde test etme yeteneği, uygun örnekleme tekniğine ve yeterli numune boyutuna bağlıdır.
Test etmek için R kodu tüm bunları gerçekleştirir:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Sonuçlar:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024
Bazen nüfus varyansı a priori olarak ayarlanır . Örneğin, SAT puanları standart sapma 110 olacak şekilde ölçeklendirilir ve IQ testleri 15 standart sapma olacak şekilde ölçeklendirilir .
Ortalamanın bilinmediği ancak varyansın ne zaman bilindiğini düşünebileceğim tek gerçekçi örnek, sabit bir yarıçapa ve bilinmeyen bir merkeze sahip bir hiper kürede (hangi boyutta olursa olsun) noktaların rastgele örneklenmesidir . Bu problemin bilinmeyen bir ortalaması (kürenin merkezi) ancak sabit bir varyansı (kürenin kare yarıçapı) vardır. Bilinmeyen bir ortalama ancak bilinen bir varyansın olduğu başka gerçekçi örneklerin farkında değilim. (Ve açık olmak gerekirse: sadece diğer verilerden dış varyans tahminine sahip olmak bilinen bir varyans örneğidir. Ayrıca, diğer verilerden bu varyans tahminine sahipseniz, neden aynı değerden karşılık gelen ortalama bir tahmininiz yok? veri?)
Benim görüşüme göre, bilinmeyen bir ortalama ve bilinen varyansı olan testleri öğreten giriş istatistik dersleri bir anakronizmdir ve modern bir öğretim aracı olarak yanlış yönlendirilmiştir. Pedagojik olarak, bilinmeyen bir ortalama ve varyans için doğrudan T-testiyle başlamak ve z-testine, serbestlik derecesi büyük olduğunda (veya değil) asimtotik bir yaklaşım olarak davranmak daha iyidir hatta z-testini öğretmek bile zahmetlidir). Bilinen bir varyansın, ancak bilinmeyen bir ortalamanın olacağı durumların sayısı kaybolarak azdır ve genellikle bu (delicesine nadir) vakayı tanıtmak öğrencilere yanıltıcıdır.
Bazen uygulamalı problemlerde, fizik, ekonomi vb. Tarafından bize varyans hakkında bilgi veren ve belirsizliği olmayan nedenler vardır. Diğer zamanlarda, nüfus sonlu olabilir ve herkes hakkında bazı şeyler biliyor olabiliriz, ancak geri kalanını öğrenmek için istatistikleri örneklememiz ve yapmamız gerekir.
Genel olarak, endişeniz oldukça geçerlidir.