Bağımsız numuneler t-testi: Büyük numune boyutları için verilerin gerçekten normal olarak dağıtılması gerekir mi?


13

Diyelim ki iki bağımsız örneğin farklı araçları olup olmadığını test etmek istiyorum. Altta yatan dağılımın normal olmadığını biliyorum .

Doğru anlarsam, test istatistiğim ortalamadır ve yeterince büyük örnek boyutları için, numuneler olmasa bile ortalama normal olarak dağıtılmalıdır. Bu durumda parametrik bir anlamlılık testi geçerli olmalıdır, değil mi? Bu konuda çelişkili ve kafa karıştırıcı bilgiler okudum, bu yüzden bazı onayları (veya yanlış olduğumu açıklamayı) takdir ediyorum.

Ayrıca, büyük örnek büyüklükleri için, t istatistiği yerine z istatistiğini kullanmam gerektiğini okudum. Fakat pratikte, t-dağılımı normal dağılıma yakınlaşacak ve iki istatistik aynı olmalı, değil mi?

Düzenleme : Aşağıda z-testini tanımlayan bazı kaynaklar bulunmaktadır. Her ikisi de popülasyonların normal olarak dağıtılması gerektiğini belirtir:

Burada , "Kullanılan Z testi tipine bakılmaksızın, numunelerin alındığı popülasyonların normal olduğu varsayılmaktadır." Ve burada , z-testi için gereksinimler "Normal olarak dağıtılmış ancak bağımsız popülasyonlar, σ biliniyor" olarak listelenmiştir.


Söyledikleriniz mantıklı. Örnek araçların dağılımında normallik olduğunu varsaymak için merkezi limit teoremini kullanıyorsunuz. Ayrıca, t-testini kullanıyorsunuz çünkü popülasyon varyansınız yok ve bunu örnek varyansına göre tahmin ediyorsunuz. Ancak bu çelişkili kaynaklardan herhangi birini bağlayabilir veya gönderebilir misiniz?
Antoni Parellada

Cevabın için teşekkürler! Burada , örneğin, z-testi için gereksinimler "Normal olarak dağıtılmış ancak bağımsız popülasyonlar, σ biliniyor" olarak listelenmiştir, bu yüzden nüfusun dağılımından bahsediyorlar, ortalama değil - bu yanlış mı?
Lisa

@AntoniParellada Orijinal yazıya bazı kaynaklar ekledim!
Lisa


Orijinal popülasyonların normal olduğu biliniyorsa, mükemmel, tartışılmaz bir durumumuz var. Bununla birlikte, CLT, bağlantılı kağıdınızda belirtilen bu çok uzun koşul sırasına bağlı olarak kaçınmak için özellikle büyük örneklerde bulunur.
Antoni Parellada

Yanıtlar:


7

Bu CLT'nin yaygın bir yanlış anlaşılması olduğunu düşünüyorum. CLT'nin tip II hatasını korumakla hiçbir ilgisi yoktur (burada kimsenin bahsetmediği), ancak popülasyon varyansını tahmin etmeniz gerektiğinde genellikle geçerli değildir. Veriler Gauss olmayan olduğunda örnek varyansı, ölçeklendirilmiş bir ki-kare dağılımından çok uzakta olabilir, bu nedenle örnek boyutu onbinini aşsa bile CLT uygulanmayabilir. Birçok dağıtım için SD, iyi bir dağılım ölçüsü bile değildir.

CLT'yi gerçekten kullanmak için iki şeyden biri doğru olmalıdır: (1) örnek standart sapma, gerçek bilinmeyen dağılım için bir dağılım ölçüsü olarak çalışır veya (2) gerçek popülasyon standart sapması bilinir. Bu çoğu zaman böyle değildir. Ve n = 20,000'in CLT'nin "çalışması" için çok küçük olmasına bir örnek, bu sitede başka bir yerde tartışıldığı gibi lognormal dağılımdan örneklerin alınmasıdır.

Örneğin dağılım simetrikse ve Gauss dağılımından daha ağır kuyruklara sahip değilse, örnek standart sapması bir dağılım ölçüsü olarak "çalışır".

Analizlerimin hiçbirinde CLT'ye güvenmek istemiyorum.


3
CLT biraz kırmızı ringa balığı olabilir. Çoğu zaman örnek ortalamanın kesin olarak normal olmayan bir dağılımı olduğu ve örnek SD'nin kesin olarak chi şeklinde olmadığı, ancak yine de t-istatistikinin bir öğrenci t dağılımı tarafından yararlı bir şekilde yakınlaştırıldığı (kısmen ikisi arasındaki bağımlılık nedeniyle) İstatistik). Durumun bu olup olmadığı herhangi bir durumda değerlendirilmelidir. Bununla birlikte, CLT sonlu örnekler hakkında çok az şey ileri sürdüğü (ve bunlar hakkında kesinlikle nicel bir şey söylemediği için), dağıtım varsayımlarını destekleme çağrısı genellikle geçersizdir.
whuber

Her yerde günlük olarak rutin olarak (ve muhtemelen akılsızca) gerçekleştirilen bir prosedürü (ve benim durumumda öğreniyorum) (bilinmeyen dağılımlardan iki örnek aracı bir t-testi ile karşılaştırarak) tartıştığımızı söylemek adil olur mu? gerekçe zayıf olabilir mi? Ve pratikte CLT'nin, ideal olmasa bile tolere edilebilir / kabul edilebilir herhangi bir kullanımı var mı?
Antoni Parellada

-statistic çok sık gelen çok uzak olan bir dağılıma sahip verileri olmayan bir Gauss dağılımından gelip dağılımı. Ve evet, testini kullanma gerekçesinin çoğu uygulayıcının düşündüğünden daha zayıf olduğunu söyleyebilirim . Bu yüzden yarı ve parametrik olmayan yöntemleri tercih ediyorum. t tttt
Frank Harrell

2
CLT gerçekten asimtotik bir ifade ve çoğu insan onu çağırdığında, kafasındaki fikrin gerçekten Berry-Esseen teoremi gibi bir şey olduğundan şüpheleniyorum (normalliğe yakınlaşmanın "makul" bir oranda gerçekleştiğine ve bu nedenle örneklem boyutlarına inanıyorlar yeterince iyi"). Ancak bu biraz daha karmaşık akıl yürütme bile t-testinin geçerliliği hakkında yanlış bir sonuca yol açabilir. Acaba bu cevapta Berry – Esseen'in bile CLT'ye yapılan yanlış çekiciliği “kurtarmaz”.
Silverfish

3
@FrankHarrell "Örnek standart sapma, gerçek bilinmeyen dağılım için bir dağılım ölçüsü olarak çalışır" ile ne demek istiyorsun? Cevabınıza kısa bir açıklama (muhtemelen sadece bir cümle) eklediyseniz yardımcı olacaktır.
mark999

9

Yorumların anlamlı olması için bu paragraftan ayrılıyorum: Muhtemelen orijinal popülasyonlardaki normallik varsayımı çok kısıtlayıcıdır ve örnekleme dağılımına odaklanarak ve özellikle büyük numuneler için merkezi sınır teoremi sayesinde vazgeçilebilir.

t

Bahsettiğiniz gibi, bu hızlı R grafiğinin gösterdiği gibi, örnek arttıkça t-dağılımı normal dağılıma yaklaşmaktadır:

resim açıklamasını buraya girin

t

Bu nedenle, z-testinin uygulanması büyük örneklerle tamamlanabilir.


İlk cevabımla ilgili sorunları çözme. Teşekkürler, OP için yardımınız için Glen_b (yorumdaki muhtemel yeni hatalar tamamen benimdir).

  1. T İSTATİSTİK, NORMALite VARSASINDA DAĞILIMDA TAKİP EDİYOR:

Tek örnekli - iki örnekli (eşleştirilmiş ve eşleştirilmemiş) formüllerin karmaşıklıklarını bir kenara bırakarak, bir örnek ortalamasını bir popülasyon ortalamasıyla karşılaştırmaya odaklanan genel t istatistiği :

(1)t-test=X¯μsn=X¯μσ/ns2σ2=X¯μσ/nx=1n(XX¯)2n1σ2

Xμσ2

  1. (1) N(1,0)
  2. (1)s2/σ2n11n1χn12(n1)s2/σ2χn12
  3. Pay ve payda bağımsız olmalıdır.

t-statistict(df=n1)

  1. MERKEZİ LİMİT TEOREMİ:

Numune boyutu arttıkça, numune araçlarının örnekleme dağılımının normallik eğilimi, popülasyon normal olmasa bile payın normal dağılımını varsayabilir. Bununla birlikte, diğer iki durumu etkilemez (paydanın ki kare dağılımı ve paydanın paydadan bağımsızlığı).

Ancak hepsi kaybolmaz, bu yazıda , Payda'nın chi dağılımı karşılanmamış olsa bile Slutzky teoreminin normal dağılıma doğru asimptotik yakınsamayı nasıl desteklediği tartışılmaktadır.

  1. DAYANIKLILIK:

Psikolojik Bültende Sawilowsky SS ve Blair RC tarafından "Testin Nüfus Normallerinden Kalkışlara Dayanıklılık ve Tip II Hata Özelliklerine Daha Gerçekçi Bir Bakış" , 1992, Cilt. 111, No. 2, 352-360 , burada güç ve tip I hataları için daha az ideal veya daha fazla "gerçek dünya" (daha az normal) dağılımını test ettiler, aşağıdaki iddialar bulunabilir: "Tip ile ilgili muhafazakar yapıya rağmen Bu gerçek dağılımlardan bazıları için t testinde hata yaptım, çalışılan çeşitli tedavi koşulları ve örnek boyutları için güç seviyeleri üzerinde çok az etkisi oldu. Araştırmacılar, biraz daha büyük bir örnek boyutu seçerek güçteki küçük kaybı kolayca telafi edebilir " .

" Hakim görüş, Tip-1 hataları söz konusu olduğunda, Gauss olmayan popülasyon şekline (a) örnek büyüklükleri eşit veya neredeyse aynı olduğu sürece, (b) örnek için, bağımsız örnekler t testinin makul derecede sağlam olduğu görülmektedir. boyutları oldukça büyüktür (Boneau, 1960, 25 ila 30 örnek boyutlarından bahseder) ve (c) testler tek kuyruklu olmaktan ziyade iki kuyrukludur.Bu koşulların karşılanması ve nominal alfa ile gerçek alfa arasındaki farkların ortaya çıkarsa, tutarsızlıklar genellikle liberal nitelikten ziyade muhafazakar bir durumdur. "

Yazarlar konunun tartışmalı yönlerini vurguluyor ve Profesör Harrell'in belirttiği gibi lognormal dağılıma dayalı bazı simülasyonlar üzerinde çalışmayı dört gözle bekliyorum. Parametrik olmayan yöntemlerle bazı Monte Carlo karşılaştırmaları da yapmak istiyorum (örneğin Mann-Whitney U testi). Yani bu devam eden bir çalışma ...


SIMULATIONS:

Feragatname: Bu alıştırmalardan biri "bunu kendim kanıtlamak" için şu ya da bu şekilde. Sonuçlar genelleme yapmak için kullanılamaz (en azından benim tarafımdan değil), ama sanırım bu iki (muhtemelen kusurlu) MC simülasyonunun, şartlarda t testinin kullanımı konusunda cesaret kırıcı görünmediğini söyleyebilirim tanımladı.

Tip I hatası:

n=50μ=0σ=1

resim açıklamasını buraya girin

5%4.5%

Aslında elde edilen t testlerinin yoğunluğunun grafiği, t-dağılımının gerçek pdf'siyle örtüşüyor gibi görünüyordu:

resim açıklamasını buraya girin

En ilginç kısım t testinin "paydası" na, ki-kare dağılımını izlemesi gereken kısma bakıyordu:

(n1)s2/σ2=98(49(SDA2+SDA2))/98(eσ21)e2μ+σ2

Burada, bu Wikipedia girişinde olduğu gibi ortak standart sapmayı kullanıyoruz :

SX1X2=(n11)SX12+(n21)SX22n1+n22

Ve şaşırtıcı bir şekilde (veya değil), arsa üst üste bindirilmiş ki-kare pdf'den oldukça farklıydı:

resim açıklamasını buraya girin

Tip II Hata ve Güç:

109

resim açıklamasını buraya girin5%0.024%99%

Kod burada .


1
Bu CLT'nin yaygın bir yanlış anlaşılması olduğunu düşünüyorum. CLT'nin tip II hatasını korumakla hiçbir ilgisi yoktur (burada kimsenin bahsetmediği), ancak popülasyon varyansını tahmin etmeniz gerektiğinde genellikle geçerli değildir. Veriler Gauss olmayan olduğunda örnek varyansı, ölçeklendirilmiş bir ki-kare dağılımından çok uzakta olabilir, bu nedenle örnek boyutu onbinini aşsa bile CLT uygulanmayabilir. Birçok dağıtım için SD, iyi bir dağılım ölçüsü bile değildir.
Frank Harrell

1
Profesör Harrell, eğer yanlışsa görevi kaldırmaktan mutluluk duyarım. Bu çok temel bir yanlış anlama olabilir. Bunun, örneklerin menşe dağılımına bakılmaksızın, büyük örneklerde, araçların bir z-testi veya t-testi ile karşılaştırılmasını doğrulayan örnekleme araçlarının dağıtımına uygulanan CLT olduğunu öneriyordum. Bu doğru değil?
Antoni Parellada

1
(1) örnek standart sapmasının, gerçek bilinmeyen dağılım için bir dağılım ölçüsü olarak çalışması veya (2) gerçek popülasyon standart sapmasının bilinmesi doğru olur. Bu çoğu zaman böyle değildir. Ve n = 20,000 olmanın bir örneği uzak "iş" için CLT için çok küçük lognormal dağılımının örnek alarak geliyor. Bu konular hakkında yanlış anlaşılma, 20 yıllık deneyime sahip istatistiklerde doktoralar arasında yaygındır.
Frank Harrell

5
Sorun, Lisa, araçları karşılaştırmanız gerekip gerekmediği veya sadece iki popülasyonun yerlerini karşılaştırmak isteyip istemediğinizdir. Bazı uygulamalarda ilgi bir ortalamaya veya toplama odaklanır, bu nedenle onu başka bir parametre ile değiştirmek çok işe yaramaz. Bu, özellikle nüfusun para veya çevresel kirlenme gibi doğal olarak kümülatif bir miktar olduğu durumdur.
whuber

3
Antoni, sağlamlıkla ilgili son bölümünüz oldukça uygun. Sawilosky ve Blair tarafından tarif edilenlere benzer birçok çalışma yaptım ve daha fazlasını okudum ve bu nedenle sonuçlarının çok özel veri türleriyle sınırlı olması gerektiğinden şüpheleniyorum. T testi , yüksek derecede çarpık dağılımların varlığında , özellikle güç açısından, sefil bir şekilde başarısız olmaktadır . Yıllar boyunca beni şaşırtan şey, normalden diğer ayrılmalara, parametrik olmayan bir prosedür olduğu iddialarında bazı geçerlilik gördüğüm noktaya kadar oldukça sağlam olmasıdır.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.