Neden sık hipotez testleri, null hipotezini yeterince büyük örneklerle reddetmeye karşı önyargılı hale geliyor?


46

Bu bölüme girdiğimde tamamen alakasız bir problem için Bayes faktörü hakkındaki bu makaleyi okuyordum.

Bayes faktörleri ile yapılan hipotez testleri, sık rastlanan hipotez testlerinden daha sağlamdır, çünkü Bayesian formu model seçim yanlılığını önler, kanıtları boş hipotez lehine değerlendirir, model belirsizliği içerir ve iç içe geçmemiş modellerin karşılaştırılmasına izin verir (tabii ki modelin zorunluluğu vardır. aynı bağımlı değişkene sahip). Ayrıca, sık anlamlılık testleri, boş hipotezi yeterince büyük örneklem büyüklüğü ile reddetme lehine önyargılı hale geldi. [vurgu eklendi]

Bu iddiayı daha önce Karl Friston'un 2012 yılında NeuroImage’da yazdığı bir gazetede görmüştüm , burada klasik çıkarımın yanlışlığı olarak adlandırıyor .

Bunun neden doğru olması gerektiğine dair gerçekten pedagojik bir hesap bulmakta biraz sıkıntı yaşadım. Özellikle, merak ediyorum:

  1. bu neden olur
  2. karşı nasıl korunacağını
  3. Başarısız, nasıl tespit edilir

7
Bu biraz tartışmasızdır, çünkü boş kelimenin tam anlamıyla tam olarak doğru olduğu durumlarda doğru değildir, ancak bu nadiren olduğu için (sahte korelasyonlar gibi her türlü karmaşıklık nedeniyle) muhtemelen en pratik uygulamalar için geçerlidir. Varsayımsal olarak konuşursak, kişi yeterince devasa olsaydı benzer sayıda kontrolsüz moderatör olmasına rağmen yüzlerce değişken uzunluğunda bir arabulucular zincirinden dolayı sahte ilişkilerin en zayıf olduğu tespit edilebilir (örneğin, r = .001). Muhtemelen, bu ilişki aslında var olsa da, bu gerçekten de "önyargı" olup olmadığını hala biraz tartışmalı IMO ...
Nick Stauner 22:14

@ NickStauner, Ah, bu gerçekten çok mantıklı! Sezgisel açıklama için teşekkürler!
blz

3
Tal Yarkoni, Friston'ın makalesinin çok aydınlatıcı bir eleştirisini yazdı: talyarkoni.org/blog/2012/04/25/…
jona

@jona, Buradaki cogsci kalabalığına koşuyor gibiyim =) Referans için teşekkürler, bu gerçekten iyi bir okumaya benziyor!
blz

8
Varsayımlar göz önüne alındığında, bu ifadenin olduğu gibi kesinlikle yanlış olduğu görülüyor, ancak gerçek bir mesele var (yeterince büyük örneklerde, bir NHST, ne kadar küçük olursa olsun, etkinin ne kadar küçük olursa olsun, sahte bir boşluğu reddetmek için neredeyse kesinleşir) . İnsanlar bunu bir problem bulduğunda, genellikle hipotez testlerinin ihtiyaç duydukları şey olmadığını gösterir. Bu cevapta
CI'ler

Yanıtlar:


44

Söz 1 Yanıt: nedeniyle oluşur -değeri gerçek bir fark (fark olmadığını hipotezi eşitlik / bir şekilde yani testler) farkı frequentist testlerinde numune boyutu arttıkça keyfi az olur tam olarak sıfıra eşit , keyfi olarak sıfıra yakın olanın aksine, gerçekçi değildir (Nick Stauner'in OP hakkındaki yorumuna bakınız). frequentist Test istatistiği hata Genellikle bu netice ile, örnek büyüklüğü azalır, çünkü-değeri isteğe bağlı olarak küçük bir hale gelir tüm farklar yeterince büyük bir örnek büyüklüğü ile rasgele bir düzeye önemlidir . Cosma Shalizi bu konuda yanlış yazmış .pp

2. soruya cevap: Sık sık bir hipotez testi çerçevesinde, yalnızca farkı saptamaktan çıkarıp çıkmamak suretiyle buna karşı korunabilir . Örneğin, bir yapabilirsiniz birleştirmek hakkında çıkarımlarda farkı ve denklik bu bir lehine değildir bu yüzden (ya conflating!) İspat yükünü üzerine etkisinin kanıtı karşı etkisinin olmaması kanıtı . Bir etkinin yokluğunun kanıtı, örneğin:

  1. denklik için iki tek taraflı test (TOST),
  2. denklik için eşit olarak en güçlü testler , ve
  3. denklik için güven aralığı yaklaşım (yani eğer % CI istatistiksel test ait olan önsel eşdeğerlik / alaka -defined aralığında, daha sonra bir de denklik sonucuna anlamlılık düzeyi).12αα

Bu yaklaşımların hepsinin paylaştığı şey, hangi etki büyüklüğünün ilgili bir fark oluşturduğuna dair önceden belirlenmiş bir karar ve en azından ilgili olduğu kadar büyük bir fark olarak çerçevelenmiş boş bir hipotezdir .

Farklılık testlerinden ve denklik testlerinden gelen birleşik çıkarım, bu nedenle örneklem büyüklüğü bu şekilde büyük olduğunda tanımladığınız önyargıya karşı koruma sağlar (farklılık için birleştirilmiş testlerden kaynaklanan dört olasılığı gösteren iki-iki tablo - pozitivist null hipotezi, —ve denklik — negativist boş hipotezi, H ):0+0

Farklılık için birleştirilmiş testlerden ve eşitlik için yapılan testlerden dört olasılık

Bir edinceye testi biridir: Sol üst kadranı dikkat evet hayır farkın hipotezini reddetmek, ama aynı zamanda bu kadar evet bir fark var, ilgili farkın sıfır hipotezini reddetmek bununla birlikte ne kadar önsel Eğer umurumda değil karar verdi çünkü çok küçük.

3. soruya cevap : 2. cevaba bakınız.


2
Bunun gibi cevaplar neden buraya geliyorum. Teşekkür ederim!
blz

2
Bu birleştirilmiş testlere "alaka düzeyi testleri" denir ve henüz çok az çalışılmıştır. Bununla birlikte, bir normal ( güven aralığı, alaka düzeyi bölgesinden koparsa Null hipotezini reddederse, (muhafazakar) bir alaka kararı verilir. Yani, @Alexis, alaka düzeyi testleri durumunda, alırsınız , denklik testi durumunda alırsınız . 1αα2α
Horst Grünbusch


2
"1. soruya cevap" aslında Michael Lew - Alexis tarafından çok daha uygun bir şekilde cevaplansa da, herkesin bu soruyu çok faydalı bulmasına biraz şaşırdım, çünkü bunun devam edeceği açıkça görülüyor, belki de cevabınızı düzeltebilirsiniz matematiksel olarak konuşursak, hipotez testlerinin gerçekte önyargının normal tanımına göre, büyük örneklem büyüklüğüyle engellenmediğini söylemek (gerçekte küçük bir örneklem büyüklüğü, bir sorun olabilir)!
Florian Hartig

3
Sorunu anlıyorum ve değerlendirme ile aynı fikirdeyim - H0 ilk etapta son derece muhtemel olduğunda ve 1 e yakın bir güce sahip olduğunuzda bir hipotez testi yapmanız yanlış ve yanıltıcıdır. önyargı tanımınız bir yöntemin sorulmaması gerektiğini düşündüğünüz bir sorunun doğru sonucunu vermediği sürece.
Florian Hartig

21

Büyük numunelerle yapılan sıkça yapılan testler, eğer sıfır hipotezi doğruysa, sıfır hipotezini reddetme konusunda önyargı göstermeyin. Testin varsayımları geçerliyse ve sıfır hipotezi doğruysa, o zaman büyük hipotezin reddedilmesine yol açan büyük bir numunenin küçük bir numuneden daha fazla riski yoktur. Eğer sıfır doğru değilse, o zaman reddetmekten memnuniyet duyarız, bu nedenle büyük bir örneğin küçük bir numuneden ziyade yanlış bir boş değeri reddedeceği gerçeği 'önyargı' değil, uygun davranıştır.

'Güçlü deneylerin' korkusu, neredeyse doğru olduğunda boş hipotezi reddetmenin iyi bir şey olmadığını varsaymaya dayanır. Ama eğer sadece neredeyse doğruysa, o zaman aslında yanlış! Reddetmek, ancak gözlemlenen etki büyüklüğünü fark etmemek (ve açıkça rapor etmek). Önemsiz bir şekilde küçük olabilir ve bu nedenle ciddi olarak dikkate alınmayabilir, ancak hipotez testinin dışından gelen bilgiler dikkate alındıktan sonra bu konuda bir karar verilmelidir.


2
Frequentist testi örneklem büyüklüğü olarak reddedilmesi ise karşı önyargılı olmadığını İnanç varsayarak dayanmaktadır büyür anlamlı ve daha da önemli ölçüde farklıdır . 0 + gerçekten küçücük00+really frickin' tiny
Alexis,

6
@Alexis İkinci paragrafı tekrar okuyun. Gerçekten çok küçük sürtüşmenin kesinlikle önemli olmadığını kabul ediyorum, ama aynı zamanda mantıksal olarak sıfır değil.
Michael Lew,

6
Halka açık olmayan bir yorum için üzgünüm ama @ MichaelLew, cevabınızı gerçekten beğendim. İlk cümle oldukça önemli ve Alexis'in cevabında verimli bir şekilde açıklandığını sanmıyorum (ki bu da güzel).
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.