Sadece örneklem büyüklüğü, örnekleme ortalaması ve popülasyon ortalaması olan Öğrenci t testi nasıl yapılır?


28

Öğrencinin testi, örnek standart sapmayı gerektirir . Ancak, yalnızca örneklem büyüklüğü ve örnek ortalaması bilindiğinde, için nasıl hesaplama yapabilirim ?tss

Örneğin, örneklem büyüklüğü ve örnek ortalaması , o zaman her biri değerinde özdeş örneklem listesi oluşturmaya çalışacağım . Beklenen şekilde, örnek standart sapma . Bu, testinde sıfıra bölünme problemi yaratacaktır .49112491120t

EK VERİLER:
ACME North Factory çalışanlarının ortalama geliri dır . ACME Güney Fabrikası'ndaki çalışanın rastgele seçilmiş bir örneğinin yıllık gelirinin olduğu bildiriliyor . Bu fark istatistiksel olarak anlamlı mı?$20049$112

Nüfus ortalamasının olduğunu söylerken haklı mıyım ?$200


Ne problemi çözmeye çalışıyorsun? Bize daha fazla söyleseydin sana yardım etmemize yardımcı olurdu.
pmgjones

Emin. Örnek bir problem ekledim.
Kit,

Yanıtlar:


32

Bu pek çok şeyi şaşırtabilir, ancak bu sorunu çözmek için mutlaka s tahmin etmeniz gerekmez . Aslında, verilerin yayılması hakkında hiçbir şey bilmenize gerek yoktur (elbette faydalı olmasına rağmen). Örneğin, 2001 tarihli bir makalede Wall, Boen ve Tweedie, tek bir çizime dayanan herhangi bir tekdüze dağılımın ortalaması için sınırlı bir güven aralığının nasıl bulunacağını açıklar .

Bu durumda, 112 örnek ortalamasını yaklaşık olarak normal bir dağılımdan (yani, 49 maaştan oluşan basit bir rasgele örneğin ortalamasının örnekleme dağılımı) bir çizim olarak görmek için bir temelimiz var. Çok fazla sayıda fabrika işçisi bulunduğunu ve maaş dağılımlarının merkez limit teoremini uygulanamaz hale getirecek kadar çarpık veya çok modlu olmadığını varsayıyoruz. O zaman ortalamanın muhafazakar% 90 CI kadar

112+5.84 |112|,

200'ün gerçek ortalamasını açıkça kapsıyor. (Wall ve ark. formül 3'e bakınız .) Mevcut sınırlı bilgi ve burada yapılan varsayımlar göz önüne alındığında, 112'nin 200'den "önemli ölçüde" farklı olduğu sonucuna varmıyoruz.

Referans: "Bir ve İki Boyut Örnekleriyle Ortalamanın Etkili Bir Güven Aralığı." Amerikan İstatistikçisi, Mayıs 2001, Cilt. 55, No. 2: sayfa 102-105. ( pdf )


4
Evet öyle! Bu yüzden çalışmaya değer. Bu sezgimizin zorlukları son derece eğitici. Bunu ilk önce Carlos Rodriguez'in (SUNY Albany) Web sayfasındaki açık bir makaleden öğrendim, ancak bu sabah bulamadım: sunucunun kapalı olduğu anlaşılıyor. Googling'u "carlos rogriguez istatistiklerini" sonra deneyin. ( Makalesinin omega.albany.edu/8008/confint.html adresinde olması gerekiyordu , ancak bu eski bir URL olabilir.)
whuber

4
Şaşırtıcı. Bunu bilmiyordum. Referans için teşekkürler.
Rob Hyndman,

4
Teşekkürler - Bu düşündüğünüz Rodriguez gazetesi olabilir mi? arxiv.org/abs/bayes-an/9504001
ars

2
Bu harika. Bununla birlikte, Wall ve arkadaşlarının "gerekenden daha geniş" olarak nitelendirdiği (Edelman'dan gelen) (3) formülünü neden uyguladığınızı merak ediyorum. Paragrafın sonundan önce (3) ifadesinden hemen önce, denklemlerinden (4) gelen% 90 aralık için 4.84 (5.84'ten tam olarak 1 küçük) kullanılırlar. Kuşkusuz bir şey özledim.
Glen_b -Reinstate Monica

2
@Glen_b Aksine, büyük olasılıkla bir şey özledim. Bir dahaki sefere bu makaleye ihtiyacım olduğunda dikkat edeceğim, ancak bu arada sabitler arasındaki fark buradaki analizi etkilemiyor.
whuber

13

Bu biraz tartışmalı bir soru gibi görünüyor. 49, tam bir 7 karedir. İki taraflı bir p <0.05 testi için 48 DoF'lu bir t-dağılımının değeri yaklaşık 2'dir (2.01).

Örnek eşitliği hipotezini reddedersek eğer | sample_mean - popn_mean | > 2 * StdError, yani 200-112> 2 * SE yani SE <44, yani SD <7 * 44 = 308.

Negatif ücret olmadan 308 (veya daha fazla) standart sapma ile ortalama 112 ile normal bir dağılım elde etmek mümkün olmazdı.

Verilen ücretler aşağıda sınırlandırılmış olup, çarpık olmaları muhtemeldir, bu nedenle log-normal dağılımın daha uygun olacağını varsaymakla birlikte, bir t-testinde p <0.05 olmasını önlemek için yine de oldukça değişken ücretler gerektirecektir.


3

Diyelim ki, her biri 112 maaş yapan ACME kuzey fabrikasında 999 işçi ve 88112 çalışan 1 CEO var. Nüfusun ortalama maaşı . CEO’nun bir örneklemden olasılığı. Fabrikadaki 49 kişi (bu hipergeometrik dağılımdandır), dolayısıyla% 95 güven ile, nüfus örnek ortalamanız 112 olacaktır. Aslında, işçi / CEO oranını ve maaşını ayarlayarak CEO’ya, 49 çalışandan oluşan bir örneklemin, CEO’yu 200’de, örneklem 112’yi ise sabit olarak tespit ederken, CEO’u çizeceğini keyfi bir şekilde yapabiliriz. Dolayısıyla, temel dağıtım hakkında bazı varsayımlar yapmadan, hiçbir şey yapamazsınız. popülasyon ortalaması hakkında çıkarım.μ=0.999112+0.00188112=200.49/1000<0.05


2
(1) Bence , nüfus ortalaması değil, örneklemenin % 95 olasılıkla 112 olduğunu , güven olmadığını yazmayı kastettin . (2) Amacınız iyi karşılandı - herhangi bir soru için geçerli olabilir - ama biraz fazla ifade edilmedi mi? Birincisi, soru, nüfusun ortalamaları hakkında bir çıkarım yapılmasını istemiyor: bize bunun 200 olduğu söyleniyor. Bu nedenle, varsayımlara bağlı olarak, nüfus ortalamalarını kesin olarak tahmin edebiliriz! İkincisi, örneklemden popülasyon ortalamasını tahmin etmemiz istense bile, sunabileceğimiz önemsiz bilgiler hala var (örneğin, yılda 10 ^ 11 doları geçmiyor). $
whuber

1
(1) iyi yakalama. (2), evet, kurulum sonrası sabit sonuçlar için problem kurulumunu asimptotik olarak sapkın yapabilirim . benim hatam. Ancak, artık OP'nin neyi test etmeye çalıştığından emin değilim. Nüfusun 200 olduğunu biliyorlarsa, neden test etmeye çalışıyorlar?
shabbychef

1
BTW, açıkça görüldüğü gibi, ABD’de aşırı bir maaş / en az 400 maaş oranı 400 olarak kabul edilmiyor. 800, yine de biraz sapık.
shabbychef

2

Sanırım bir örnek t testinden bahsediyorsunuz. Amacı, örnek ortalamanızı varsayımsal bir ortalama ile karşılaştırmaktır. Daha sonra (nüfusunuzun Gaussian olduğunu varsayarsak) bu soruyu cevaplayan bir P değeri hesaplar: Eğer nüfus ortalaması gerçekten varsayımsal bir değerse, ortalaması bu değerden (ya da daha ileride) uzak olan bir örnek çizmek ne kadar olası olurdu? gözledin mi Tabii ki, bu sorunun cevabı örneklem büyüklüğüne bağlıdır. Ancak aynı zamanda değişkenliğe de bağlıdır. Verilerinizin çok miktarda saçılması varsa, bunlar geniş bir popülasyon araçlarıyla tutarlıdır. Verileriniz gerçekten çok sıkıysa, daha az sayıda popülasyon aracıyla tutarlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.