Büyük veri setleri hipotez testi için uygun değil mi?


129

Bir de son makalesinde ait Amstat News bir ilan edecek - yazarlar (Mark van der Laan ve Sherri Gül) Biz yeterince büyük örnek boyutları için, hiçbir etkisi sıfır hipotezi doğrudur gösterdiği her çalışma dahil olanlar olduğunu biliyoruz" belirtti istatistiksel olarak anlamlı etki. "

Ben bunu bilemedim. Bu doğru mu? Büyük veri setleri için hipotez testinin değersiz olduğu anlamına mı geliyor?


10
+1: Bu soru genellikle bazı ilginç bakış açıları ortaya koyuyor.
user603

7
Büyük veri kümeleriyle ilgili daha fazla tartışma istatistik.stackexchange.com/q/7815/919 adresinde yer almaktadır . (Odak noktası regresyon modellemesi
üzerinedir


8
Büyük bir örnek hipotez testinin yanlış bir araç olduğunu düşündürürse, hipotez testi aslında daha küçük örneklerde de doğru soruyu cevaplamıyordu - büyük örneklem boyutlarında daha belirgin hale geldiğini , ancak aynı düşüncelerin konuyla ilgili olduğunu ortaya çıkardı. . Çok küçük bir etki büyüklüğündeki önemli bir sonuç size "iyi, istediğim şey değildi, önemli olup olmadığını söylememi istedim" demesini sağladıysa, hipotez testi sadece yanlış bir araçtı. Bu tür bir sorun için daha uygun araçlar (örneğin güven aralıkları, denklik testleri vb.) Vardır.
Glen_b

Yanıtlar:


91

Bu doğru değil. Eğer boş hipotez doğruysa, küçükten büyük örneklem büyüklüklerinde daha sık reddedilmeyecektir. Genellikle 0,05 (alfa) olarak ayarlanan hatalı bir reddetme oranı vardır, ancak örneklem büyüklüğünden bağımsızdır. Bu nedenle, kelimenin tam anlamıyla alınan ifade yanlıştır. Bununla birlikte, bazı durumlarda (tüm alanları bile) tüm boş değerlerin yanlış olması ve N'nin yeterince yüksek olması durumunda hepsinin reddedilmesi mümkündür. Ama bu kötü bir şey mi?

Doğru olan, çok küçük örneklemlerin çok küçük boyutlarda, çok büyük örneklem büyüklüğüyle "önemli" olduğunun görülmesi. Bu, bu kadar büyük örneklem boyutlarına sahip olmamanız gerektiği anlamına gelmez. Bunun anlamı, bulgunuzu yorumlama şeklinizin testin etki büyüklüğüne ve hassasiyetine bağlı olmasıdır. Çok küçük bir etki büyüklüğüne ve yüksek hassasiyete sahip bir testiniz varsa, istatistiksel olarak anlamlı bulgunun anlamlı veya yararlı olamayacağını kabul etmeniz gerekir.

Bazı insanlar boş değer varsayımı testinin, boş değer geçerli olduğunda , her zaman herhangi bir örneklem büyüklüğü için seçilen kesim noktasına eşit bir hata oranına sahip olduğuna inanmazsa , işte Rnoktayı kanıtlamak için basit bir simülasyon . N'yi istediğiniz kadar büyütün ve Tip I hataların oranı sabit kalacaktır.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1: gerçekten, buradaki her üç cevap da mantıklı bir şekilde birbirleriyle tutarlı.
user603

1
Sonunda (istatistik dışı) bir profesörün bana uzun zaman önce söylediği bir şeyin eksikliğini buldum.
Jase

1
@Sympa, hayır. Sırf N yükseldikçe SE aşağı indiğinden, her zaman büyük N ile etki bulacağınız anlamına gelmez (simülasyona bakın). SE azalırken etkinin tahmin kalitesinin arttığını unutmayın. Nüfus etkisi yoksa, 0'a yakın olma ve hiçbir fark göstermeme olasılığı daha yüksektir. Aslında, p değerlerinin dağılımı, null doğru olduğunda örneklem büyüklüğünden bağımsız olarak düzdür (bunun için kendi simülasyonunuzu yazın). Cevapta çelişki yok.
John

4
O zaman yanlış olurdun. Diğer cevapları da burada okumayı düşünebilirsiniz. Simülasyon ve hipotez testi arasındaki ilişkiyi takip edemediğinizden, sanırım sadece birincil hatanın, standart hatanın düştüğü, t'nin düştüğü ve p'nin düştüğü iddiasına işaret edebilirim. Bu sadece, efektin sabit kalması durumunda geçerlidir. Fakat etki rastgele bir örnektir ve gerçek etki 0 olduğunda, N arttıkça gözlenen etki azalmaya meyillidir. Bu nedenle, N, SE azaldıkça, t-değerlerini artırmaz çünkü t-değerindeki pay da düşük olacaktır.
John

1
Rnorm'un irrasyonel bir sayı üretememesi gerçeği, örnekte önemli değildir. Ortalama olarak 0 ve sd 1 arasında tam olarak normal çizmeseler bile, her iki örnek için de normal değildir. Tip I hata oranı hiç .05'in biraz altında olabilir, ancak N'den bağımsız olarak sabit kalmalıdır. Ve bunun bir sorun olmadığı ayrı bir tane seçebildiğim için tüm simülasyonlar için doğru değil. (Ezoterik bir sorunu gerçekten ortaya çıkarmak istiyorsan o zaman sahte rastgeleliği ele almış olmalısın.)
John

31

Ortaya çıkan cevaplara katılıyorum, ancak belki de sorunun yönlendirilebileceğini eklemek isterim. Bir hipotezi test edip etmemek, en azından genel olarak ne kadar veri bulunduğundan bağımsız olması gereken bir araştırma sorusudur. Gerçekten bir hipotezi test etmeniz gerekiyorsa, bunu yapın ve küçük etkileri saptama kabiliyetinizden korkmayın. Ama önce bunun araştırma hedeflerinizin bir parçası olup olmadığını sorun.

Şimdi bazı rahatsızlıklar için:

  • Bazı boş hipotezler inşaat tarafından kesinlikle doğrudur. Örneğin, eşitlik dağıtımı için sahte bir sayı üreteci test ederken ve PRG'nin gerçekten eşit dağıtıldığını (matematiksel bir teorem olacaktı), o zaman null tutar. Muhtemelen çoğunuz, tedavinin gerçekten etkisinin olmadığı deneylerde rastlantısallaşmadan kaynaklanan daha ilginç gerçek dünya örnekleri düşünebilirsiniz. (Espre hakkındaki tüm literatürü bir örnek olarak tutardım. ;-)

  • "Basit" bir boş klasik t-testi ya da Z-testlerde olduğu gibi, bir "bileşik" alternatif test edilir bir durumda, tipik olarak orantılı bir örnek boyutu alır arasında bir etki boyutunu tespit etmek £ değerinin . Her çalışmada buna bağlı pratik bir üst sınır vardır, bu da tespit edilebilir bir etki büyüklüğünde pratik bir alt sınır olduğunu gösterir. Bu nedenle, teorik bir mesele olarak Laan ve Rose haklılar, ancak sonuçlarına uymaya özen göstermeliyiz.1/ϵ2ϵ


Bunların hepsi tip II hataya karşı tip II hata (veya güç) meselesi değil midir? Biri, tip I hata olasılığını ( ) 0,05 olarak düzeltirse , açık bir şekilde (kesikli durum hariç), numunenin büyük olup olmadığı 0.05 olacaktır. Ancak verilen bir tip I hata olasılığı için 0,05 örneğin, güç veya orada olduğu zaman etkiyi tespit edebileceğiniz olasılık, büyük örneklem büyüklükleri için daha büyüktür. α

@fcop Yorumlarınız doğru olsa da, diğer cevaplara yönlendirilmiş gibi görünüyor. Bu konuyu özlüyorlar, bu da tüm istatistiksel analizlerin hipotez testleri olması gerekmediğini ortaya koyuyor. Tip I ve II hataları sadece biçimsel hipotez testleri yaparken anlamlıdır.
whuber

OP açıklamaya atıfta: '' Biz yeterince büyük örnek boyutları için, hiçbir etkisi sıfır hipotezi doğrudur gösterdiği her çalışma dahil olanlar olduğunu biliyoruz - istatistiksel olarak anlamlı bir etkisi ilan edecek. '' Yani, örneğin sınamak eğer ve H 1 : μ 1 o zaman büyük örneklerde güç o kadar yüksektir ki, 1'den küçük sapmaları bile 'algılar', bu yüzden ifadelerinin doğru olmadığını düşünüyorum, ancak büyük örneklerde bu güç çok küçük farklılıkları tespit eder. H0:μ=1H1:μ1

@fcop Açıkladığınız için teşekkürler. Muhakemenize katılıyorum: sıfır olduğunda, o zaman inşaat ile büyük çalışmalar bile testlerinin boyutuna eşit bir şansla önemli bir etki bulacak - yani, önemli bir etki bulma olasılıkları düşük olacaktır.
whuber

19

Hipotez testi geleneksel olarak alfa 0.05'ten küçük olduğunda önemli bir zayıflığa sahip olduğunda istatistiksel anlamlılık elde etmek için p değerlerine odaklanmıştır. Ve bu, yeterince büyük bir örneklem büyüklüğü ile, herhangi bir deneyin sonunda boş hipotezi reddedebileceği ve istatistiksel olarak anlamlı olduğu ortaya çıkan önemsiz derecede küçük farklılıkları tespit edebileceğidir.

İlaç şirketlerinin çok büyük numunelerle FDA onayı almak için klinik denemeler yapmasının nedeni budur. Büyük örnek standart hatayı sıfıra yakınlaştıracaktır. Bu da yapay olarak t statüsünü güçlendirecek ve orantılı olarak p değerini% 0'a yakınlaştıracaktır.

Ekonomik teşvikler ile bozulmayan bilimsel topluluklar içinde toplanıyorum ve ilgili çıkar çatışması hipotez testleri, herhangi bir p değeri ölçümünden Etkili Boyut ölçümlerine doğru ilerliyor. Bunun nedeni Etki Boyutu analizindeki istatistiksel mesafe veya farklılaşma biriminin standart hata yerine standart sapma olmasıdır. Ve standart sapma, örneklem büyüklüğünden tamamen bağımsızdır. Diğer yandan standart hata tamamen örneklem büyüklüğüne bağlıdır.

Bu nedenle, büyük örneklere ve p değeri ile ilgili metodolojilere dayanarak istatistiksel olarak anlamlı sonuçlara ulaşan hipotez testlerinden şüphelenilen herkesin şüpheci olma hakkı vardır. Aynı verileri kullanarak analizi tekrar başlatmalılar, bunun yerine Etki Boyutu istatistiksel testleri kullanmalılar. Ve sonra, Etki Boyutu'nun malzeme olarak kabul edilip edilmediğini gözlemleyin. Bunu yaparak, istatistiksel olarak anlamlı olan birçok farklılığın önemsiz Etki Boyutu ile ilişkili olduğunu gözlemleyebilirsiniz. Klinik araştırma araştırmacılarının bazen bir sonucun istatistiksel olarak anlamlı olduğu ancak "klinik olarak anlamlı" olmadığı zaman kastettiği şey budur. Bir tedavinin plasebodan daha iyi olabileceği anlamına gelir, ancak fark o kadar marjinaldir ki, klinik bağlamda hasta için bir fark yaratmaz.


1
Bir kişinin büyük örneği diğerinin küçük örneğidir. :)
Iterator

3
O zaman yanlış soruyu sormadın mı? Belki de FDA onay süreci, sadece istatistiksel olarak önem vermek yerine, plaseboya (belki de ilacın olumsuz etkileri de dahil olmak üzere, bununla ilgili maliyetlere bağlı olarak) daha büyük bir kazanç belirtmelidir? Çünkü çok küçük de olsa gerçek bir fark olabilir ve bu farkın küçük olmasına rağmen istatistiksel olarak anlamlı olduğu gösterilmiştir.
Emil Vikström

FDA "sadece istatistiksel önem" gerektirmez. Bu çok saçma olurdu. Sektördeki herkes "klinik olarak önemli" nin ne demek olduğunu anlıyor. FDA , remisyon gibi klinik son noktalarla ölçülen ilacın sağlık ve güvenlik endişelerine karşı etkinliğinin istatistiksel kanıtını tartıyor . Lütfen temelsiz iddialarda bulunmadan önce FDA kurallarını okuyun.
qwr

15

(Sık) bir hipotez testi, kesin olarak, gözlemlenen verinin olasılığı sorununu ele alır ya da daha hipotezin doğru olduğunu varsayarsak, muhtemelen daha aşırı bir şey olabilir. Bu yorum örneklem büyüklüğüne kayıtsızdır. Bu yorum, numunenin 5 veya 1,000,000 büyüklüğünde olup olmadığı konusunda geçerlidir.

Önemli bir uyarı, testin yalnızca örnekleme hataları ile ilgili olmasıdır. Ölçüm hataları, örnekleme problemleri, kapsam, veri giriş hataları, vb. Örnekleme hatası kapsamı dışındadır. Numune büyüklüğü arttıkça, örnekleme dışı hatalar daha etkili hale gelir, çünkü küçük kalkışlar rastgele örnekleme modelinden önemli kalkışlar yapabilir. Sonuç olarak, anlamlılık testleri daha az kullanışlı hale geldi.

Bu hiçbir şekilde anlamlılık testi iddiası değildir. Ancak, özelliklerimiz konusunda dikkatli olmamız gerekir. Bir sonuç istatistiksel olarak anlamlı olabilir. Ancak, örneklem büyüklüğü büyük olduğunda nasıl atfetme yaptığımız konusunda dikkatli olmalıyız. Bu varsayımsal üretme sürecimizden kaynaklanan örnekleme hatası karşısında meydana gelen fark, test istatistiğini etkileyebilecek (örneğin istatistiğin hesaba katmadığı) olası herhangi bir örnekleme dışı hatadan mı kaynaklanıyor?

Büyük örneklemlerle ilgili bir diğer husus, bir sonucun pratik önemidir. Önemli bir test (örnekleme dışı hatayı hariç tutabilsek bile) pratik anlamda önemsiz bir fark önerebilir. Bu sonucun örnekleme modelinde görülme olasılığı düşük olsa bile, sorun bağlamında önemli mi? Yeterince büyük bir örnek verildiğinde, iki grup arasındaki gelir karşılaştırılırken istatistiksel olarak anlamlı bir sonuç elde etmek için birkaç dolarlık bir fark yeterli olabilir. Bu anlamlı anlamda önemli midir? İstatistiksel önem, iyi karar vermenin ve konu bilgisinin yerine geçmez.

Bir kenara, null ne doğru ne de yanlış. Bu bir model. Bu bir varsayımdır. Boş değerin doğru olduğunu varsayarız ve örneğimizi bu varsayım açısından değerlendiririz. Örneğimize bu varsayımın olası olmaması durumunda alternatifimize daha fazla güveniriz. Bir boş değerin pratikte hiç doğru olup olmadığını sorgulamak, önemlilik testi mantığının yanlış anlaşılmasıdır.


3
Bu, örnek büyüklükleri büyüdükçe artan model karmaşıklığı argümanını desteklemektedir - büyük örneklem durumunda örnekleme hatası artık belirsizliğin baskın kaynağı değildir. Elbette bu sadece Bayesleme çerçevesindeki "anlamlıdır", örnekleme yanı sıra diğer belirsizlik kaynaklarına izin verir.
probabilityislogic

13

Doğrudan başka bir cevapta verilmeyen basit bir nokta, “tüm boş hipotezlerin yanlış olduğu” gerçeğinin basit olmadığıdır.

Fiziksel bir madalyonun olasılıkları tam olarak 0,5'e eşit olasılıklara sahip olduğu varsayımı, tamam, bu yanlıştır.

α

α


9

Belli bir anlamda, [hepsi] birçok boş hipotez [her zaman] yanlıştır (tek sayıları olan evlerde yaşayan insan grubu hiçbir zaman tam olarak aynı sayıya sahip evlerde yaşayan insan grubu ile aynı şekilde kazanmaz).

Tαn-0.5Tααn

Bu istatistiksel testlerin bir hatası değildir. Basit bir şekilde, daha fazla bilgi olmadan (bir öncek), null ile ilgili çok sayıda küçük tutarsızlığın null'a karşı delil olarak alınması gerektiğinin bir sonucu. Bu tutarsızlıklar ne kadar önemsiz olursa olsun ortaya çıkar.

P^(|μ¯1-μ¯2|2>η|η,X)


Bu garip ... sezgisel olarak, bu Büyük Sayılar Yasasına aykırı görünüyor.
Carlos Accioly

Carlos: Daha açık konuşabilir misin?
user603 9:10

n

1
@Carlos - ama yakınsama eşitlik anlamına gelmez; bu yalnızca erişilemez sonsuzluk sınırı için garanti edilir. Yani hiçbir çelişki yoktur ;-)

5

Kısa cevap "hayır" dır. Sonsuz gözlemlerin ve çoklu hipotezlerin asimptotik rejiminde hipotez testleri üzerine yapılan araştırmalar, mikroarray verileri ve finansal veri uygulamaları nedeniyle son 15-20 yılda çok, çok aktif olmuştur. Uzun cevap, 2010 yılında Brad Efron tarafından verilen “Büyük Ölçekli Eşzamanlı Çıkarım” Stat 329 ders sayfasında. Bir tam bölüm büyük ölçekli hipotez testi için ayrılmıştır.


7
Efron'un kitabının, örneklem büyüklüğüne değil çok sayıda değişkene (ve bunun sonucunda ortaya çıkan çoklu test sorunlarına) odaklandığına inanıyorum.
Galit Shmueli

4

Büyük veriler için hipotez testi, bir fark olup olmadığı yerine, istenen fark seviyesini dikkate almalıdır. Tahminin tam olarak 0 olduğu H0 ile ilgilenmiyorsunuz. Genel bir yaklaşım, boş hipotez ile gözlenen değer arasındaki farkın verilen bir kesme değerinden daha büyük olup olmadığını test etmek olacaktır.

X1¯>X2¯

T=X1¯-X2¯-δS2n+δS2nN-(δS2n,1)
T=X1¯-X2¯S2nN-(δS2n,1)

'H0:X1¯-X2¯=δ

X1¯-X2¯-δS2nN-(0,1)

'HbirX1¯-X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Hangi verir:

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

ilk denklemde bir kopya / geçmiş yazım hatası yok mu?
user603 10:10

Ben görmüyorum
Joris Meys

4

“Hipotez testinin büyük veri setleri için değersiz olduğu anlamına mı geliyor?”

Hayır, bu demek değil. Genel mesaj, bir hipotez testi yaptıktan sonra verilen kararların sadece p-değerini değil, her zaman tahmini etki büyüklüğünü göz önünde bulundurması gerektiğidir . Özellikle, çok büyük örneklem büyüklüğüne sahip deneylerde, etki büyüklüğünü dikkate almak için bu gereklilik dramatik hale gelir. Tabii ki, genel olarak, kullanıcılar bundan hoşlanmaz çünkü işlem daha az "otomatik" olur.

Bu simülasyon örneğini düşünün. Standart bir normal dağılımdan rastgele bir 1 milyon gözlem örneği aldığınızı varsayalım,

n <- 10^6
x <- rnorm(n)

0.01 ve eşit varyansa eşittir.

y <- rnorm(n, mean = 0.01)

95%2.5x10-14 .

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[-0,013,-0.008]

İki nüfus arasındaki fark, bu büyüklük sırasına göre, üzerinde çalıştığımız sorunla ilgili midir?


Cevabınızdaki her cümleyle, "Evet, genellikle bunun anlamı" olarak değiştireceğim ilk cümle dışında hemfikirim çünkü bir milyondan fazla büyük örneklemle, etki büyüklüğü çok küçük.
zbisikçi

α

3

Bence, hiçbir zaman bilmediğimiz boş değerlere genel tanımsız bazı sınıfsal alternatif sınıfları içeren bir çok anlamlılık testi sorunu olduğunu düşünüyorum. Genellikle bu sınıflar, verilerin mükemmel bir şekilde uyduğu bir tür "kesin şey" hipotezi içerebilir (yani, şeklinde bir hipotez).'HST:d1=1.23,d2=1.11,...dben

Fakat bir kişi genellikle bu kesin şey hipoteziyle ilgilenmez. Hipotez testi ile gerçekten ne yapmak istediğinizi düşünürseniz, kısa bir süre sonra sadece boş hipotezi reddetmeniz gerektiğini ancak bunun yerine daha iyi bir şeye sahip olmanız gerektiğini anlayacaksınız. Boş değeriniz verileri açıklamazsa bile, değiştirme işleminiz olmadıkça fırlatmanın bir faydası yoktur. Şimdi null değerini her zaman "kesin şey" hipoteziyle değiştirir miydin? Muhtemelen hayır, çünkü bu "kesin şey" hipotezini veri kümenizin ötesine genellemek için kullanamazsınız. Verilerinizi yazdırmaktan daha fazlası değil.

Öyleyse, yapmanız gereken, eğer doğru olsaydı, aslında hareket etmekle ilgileneceğiniz hipotezini belirtmektir. O zaman, bu alternatifleri birbirleriyle karşılaştırmak için uygun testi yapın - yanlış veya kullanılamaz olduğunu bildiğiniz alakasız hipotez sınıfına değil.

'H0:μ=0'H1:μ{±1,±2,±3,±4,±5,±6}0.5100

Sonuç, temelde, hipotez alanınızı - aslında ilgilendiğiniz hipotezi - belirtmeniz gerektiğidir. Büyük verilerle, bunun yapmak için çok önemli bir şey olduğu anlaşılıyor, çünkü verileriniz çok fazla çözme gücüne sahip. İyi davranışlı sonuçlar elde etmek için hipotez - nokta ile nokta, bileşik ile bileşik - gibi karşılaştırmanın önemli olduğu görülmektedir.


3

Hayır. Doğru, tüm faydalı nokta hipotez testlerinin tutarlı olduğu ve bu nedenle yalnızca örneklem büyüklüğü yeterince büyükse ve bazı alakasız bir etki varsa, önemli bir sonuç gösterecektir. İstatistiksel hipotez testlerinin bu dezavantajının üstesinden gelmek için (yukarıda Gaetan Lion’ın cevabında da bahsettiğim) alaka düzeyi testleri vardır. Bunlar denklik testlerine benzer ancak daha az yaygındır. Alaka düzeyi testi için, minimum ilgili etkinin boyutu önceden belirlenmiştir. Alaka düzeyi testi, etki için bir güvenirlik aralığına dayanabilir: Güven aralığı ve alaka düzeyi bölgesi birbirinden ayrıysa boş değeri reddedebilirsiniz.

Ancak, van der Laan ve Rose ifadelerinde, gerçek boş hipotezlerin bile çalışmalarda test edildiğini varsayıyorlar. Eğer boş bir hipotez doğruysa, reddetme kabiliyeti alfadan daha büyük değildir, özellikle büyük numunelerde ve hatta yanlış tanımlanmışsa, sadece numune dağılımının sistematik olarak popülasyon dağılımından farklı olduğunu görebilirim,


3

Bahsettiğiniz makalede, standart frekansçı testler söz konusu olduğunda geçerli bir noktaya sahip. Bu nedenle verilen etki büyüklüğü için test yapmak çok önemlidir. Açıklamak gerekirse, burada B grubu, A ve C grubundan biraz farklı olan B grubu, r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Beklenildiği gibi, test başına daha fazla sayıda örnek olması durumunda testin istatistiksel önemi artar: görüntü tanımını buraya girin


2

Bence onların demek istediği, 'basit' bir biçime sahip olan ama gerçek olasılık yoğunluğuna karşılık gelmeyen sıfır hipotezinin olasılık yoğunluğu hakkında bir varsayımda bulunduğunu düşünüyorum.

Şimdi küçük veri kümeleriyle, bu etkiyi görecek kadar duyarlılığınız olmayabilir, ancak yeterince büyük veri kümesinde boş hipotezi reddedecek ve boş hipotez hakkındaki varsayımınızın yanlış olduğu sonucuna varmak yerine yeni bir etki olduğu sonucuna varacaksınız.


1
Mark ve Shern'in görüşün aklınıza gelip gelmediğini bilmiyorum ama sadece noktanızı ifade etmek için - eğer boş olan veri modeli 'yanlış' ise, o zaman yeterince büyük bir veri için boş hipotezi reddedeceksiniz.

1

Bunların hepsi tip II hataya karşı tip II hata (veya güç) meselesi değil midir? Eğer biri tip I hata olasılığını düzeltirse (α) 0.05'te, sonra açık bir şekilde (kesikli durum hariç), numunenin büyük olup olmaması 0.05 olacaktır.

Ancak verilen bir tip I hata olasılığı için 0,05 örneğin, güç veya orada olduğu zaman etkiyi tespit edebileceğiniz olasılık (yani reddetme olasılığı) 'H0 (= etkiyi algıla) 'H1 true (= etki olduğunda)), büyük örneklem boyutları için daha büyüktür.

Güç örneklem büyüklüğü ile artar (diğer her şey eşit).

Ancak, “Yeterince büyük olmayan örneklem büyüklükleri için, hiçbir etkinin sıfır hipotezinin geçerli olmadığı da dahil olmak üzere, her çalışmanın istatistiksel olarak anlamlı bir etki ilan edeceğini biliyoruz” ifadesidir. yanlış.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.