Arasında seçim


20

Arka plan: Hipotez testi üzerine çalışan meslektaşlarına bir sunum yapıyorum ve çoğunu iyi anlıyorum ama kendimi anlamaya ve başkalarına açıklamaya çalışan düğümlere bağladığım bir yönü var.

Bildiğimi düşünüyorum (yanlışsa lütfen düzeltin!)

  • Varyans biliniyorsa normal olacak istatistikler , varyans bilinmiyorsa t dağılımını takip edin
  • CLT (Merkezi Limit Teoremi): Örnek ortalamasının örnekleme dağılımı yeterince büyük için yaklaşık normaldir n( 30 olabilir , yüksek eğimli dağılımlar için kadar olabilir 300)
  • t -Dağıtım serbestlik derecesine için normal kabul edilebilir >30

Aşağıdaki durumlarda z testini kullanırsınız :

  1. Popülasyon normal ve varyans biliniyor (herhangi bir örnek boyutu için)
  2. Nüfus normal, varyans bilinmiyor ve n>30 (CLT nedeniyle)
  3. Nüfus binomu, np>10 , nq>10

Aşağıdaki durumlarda t testini kullanırsınız :

  1. Nüfus normal, varyans bilinmiyor ve n<30
  2. Popülasyon veya varyans ve hakkında bilgi yok n<30, ancak örnek veriler normal görünüyor / testleri geçiyor vb. Böylece popülasyon normal kabul edilebilir

Bu yüzden kaldım:

  • >30 ve <≈300 (?) Örnekler için , bilinen / bilinmeyen popülasyon ve varyans hakkında bilgi yoktur.

Yani sorularım:

  1. Hangi örnek büyüklüğünde, örnekleme dağılımı normal görünmediğinde ortalamanın örnekleme dağılımının normal olduğunu (yani CLT devreye girdiğini) varsayalım (nüfus dağılımı veya varyans hakkında hiçbir bilginin olmadığı durumlarda)? Bazı dağıtımların ihtiyacı olduğunu biliyorum n>300, ancak bazı kaynaklar n > 30 olduğunda z -testini kullanıyor gibi görünüyor ...n>30

  2. Emin olmadığım durumlarda normallik için verilere baktığımı düşünüyorum. Şimdi, örnek veriler normal görünüyorsa, testini kullanırım (popülasyonun normal olduğunu varsaydığından ve n > 30'dan beri )?zn>30

  3. Belirsiz olduğum vakalara ilişkin örnek verilerin nerede normal görünmediğine ne dersiniz? Hala t kullanacağınız durumlar var mıt testi veya testi kullandığınız veya her zaman parametrik olmayan testleri dönüştürmeye / kullanmaya mı? CLT nedeniyle, n'nin bir değerinde ortalamanın örnekleme dağılımının normale yaklaşacağını biliyorum, ancak örnek veriler bana bu n değerinin ne olduğunu söylemeyecek ; numune verileri normal olmayabilirken, numune ortalaması normal / t'dir . Aslında ortalamanın örnekleme dağılımı normal / t olduğunda fakat söyleyemediğinizde parametrik olmayan bir testi dönüştüreceğiniz / kullandığınız durumlar var mı? znntt


4
" yüksek eğimli dağılımlar için 300'e kadar olabilir " ... bazı durumlarda, çok daha fazlası olabilir; ya da asla olmaz. Herhangi bir , size yeterli olmadığı bir durum göstereceğim. n
Glen_b-Monica'yı eski durumuna döndür

Teşekkürler Glen_b - bu yüzden her zaman örnek verileri parametrik kullanmak için normal görünüyor kontrol edin?
Hatti

@Hatti hayır! Veriler normal görünmediğinde T testi geçerlidir.
AdamO

Yanıtlar:


24

@AdamO haklı, a-priori popülasyon standart sapmasını bilmiyorsanız her zaman t testini kullanırsınız . z testine ne zaman geçeceğiniz konusunda endişelenmenize gerek yok , çünkü t dağıtımı sizin için 'değişiyor'. Daha özel olarak ise, t -Dağıtım yakınsak normale, böylece her kullanım için doğru dağıtım N .

Burada geleneksel çizginin anlamı hakkında da bir karışıklık var. N=30. İnsanların bahsettiği iki tür yakınsama vardır:

  1. Birincisi , normal olarak dağıtılmış (grup içi) ham verilerden hesaplanan test istatistiğinin (yani, t ) örnekleme dağılımının N olarak normal bir dağılıma yaklaşmasıdır.N, SD'nin verilerden tahmin edilmesine rağmen,. (t dağılımı, yukarıda belirtildiği gibi, sizin için bunu halleder.)
  2. İkincisi, normal olarak dağıtılmamış (grup içi) ham verilerin ortalamasının örnekleme dağılımı, N olarak normal bir dağılıma (yukarıdakinden daha yavaş) yakınsamadır . İnsanlar , onlar için bununla ilgilenmek üzere Merkezi Limit Teoremine güvenirler . Bununla birlikte, makul bir numune boyutu içinde yakınsak olacağının garantisi yoktur - kesinlikle 30 (veya 300 ) sihirli sayı olduğuna inanmak için hiçbir sebep yoktur . Normalliksizliğin büyüklüğüne ve doğasına bağlı olarak, çok uzun sürebilir (çapraz başvuru @ Macro'nun cevabı: OLS kalıntıları normal olarak dağıtılmadığında gerileme ). (Grup içi) ham verilerinizin çok normal olmadığına inanıyorsanız, Mann-Whitney U testi gibi farklı bir test türü kullanmak daha iyi olabilir . Normal olmayan verilerle, Mann-Whitney U testinin,t -testi ve CLT devreye girdi bile öylesine olabilir. (Aynı zamanda normalliği için bu test dışarı değerinde işaret olduğunu olasılıkla bkz kötü yola sevk etmektir:'esasen faydasız' normallik testi mi?)

Her halükarda, sorularınızı daha açık bir şekilde cevaplamak için (grup içi) ham verilerinizin normal olarak dağıtılmadığına inanıyorsanız, Mann-Whitney U testini kullanın; verilerin normal olarak dağıtıldığına inanıyorsanız, ancak SD a-priori'yi bilmiyorsanız, t testini kullanın ; ve verilerinizin normal olarak dağıtıldığını düşünüyorsanız ve SD a-priori'yi biliyorsanız, z testini kullanın .

@ GregSnow'ın son yanıtını burada okumanıza yardımcı olabilir: R'deki bu iki konu arasındaki iki küçük grup arasındaki oranların karşılaştırılmasında p-değerinin yorumlanması .


Teşekkürler, bu gerçekten yardımcı oldu, daha büyük n için t-testi normale yaklaştıkça aşırı karmaşık olduğumu biliyordum. Kesinlikle söylemek gerekirse, n 1000 olsa bile, SD a-priori bilinmiyorsa t-testi kullanılmalıdır.
Hatti

Rica ederim. Kesinlikle söylemek gerekirse, evet , ancak -dağılımı ve o noktadaki normal dağılım arasındaki farkı anlatmanın çok zor olacağını unutmayın . t
gung - Monica'yı eski

Evet kesinlikle. Çok titiz olduğum için üzgünüm, başkalarına oldukça siyah beyaz bir şekilde nasıl açıklayacağımızı düşünmek sadece zor. Yardımınız için teşekkür ederiz!
Hatti

Ayrıca, t-test sonuçlarının hesaplanmasının günümüzde anlamlı ekstra hesaplama maliyeti olmaksızın tüm niyet ve amaçlar için olduğunu unutmayın. Artık bazı durumları kapatamayan bazı kağıt tablolarda test istatistikleri aramıyoruz, sadece bilgisayara soruyoruz. Öyleyse, neden bir z testi kullanarak aynı sonuçları alıp alamayacağınız konusunda endişeleniyorsunuz ve endişeleniyorsunuz?
Björn

11

Bu konuda tartışacak bir şey yok. T kullanıntDaha karmaşık bir yeniden örnekleme aracı (örn. Permütasyon veya önyükleme) çağrılmadığı sürece ( normalden büyük ayrılmalara sahip çok küçük örneklerde faydalıdır), araçlardaki farklılıkların parametrik olmayan bir testi için her zaman testi .

Eğer serbestlik derecesi gerçekten önemliyse , o zaman testi, test istatistiğinin sıfır hipotezi altında dağılımı için kritik değerlerin ve standart hataların tutarlı bir tahminini sağlayacaktır. Aksi takdirde, t testi yaklaşık olarak aynıdır.ttz

tz

zt


Ortalamalardaki farklılıkların parametrik olmayan testi için her zaman bir t-testi kullanın .. yani parametrik değil mi?
Xavier Bourret Sicotte
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.