P-değeri tam olarak 1 ise (1.0000000), sıfır hipotezinin doğru olmasını desteklemek için güven aralığı sınırları ne olmalıdır? [kapalı]


12

Bu tamamen varsayımsal bir sorudur. Çok yaygın bir ifade, asla doğru olmadığıdır, sadece örneklem büyüklüğü meselesidir.'H0

Şunu varsayalım ki , normal olarak dağılmış popülasyondan (hem \ mu = 0 hem de \ sigma tahmini = 1 için) çizilen iki yol ( μ1=μ2 ) arasında kesinlikle ölçülebilir bir fark yoktur . Grup başına N = 16 olduğunu varsayıyoruz ve t testi kullanıyoruz. Bu, p- değerinin 1.00000 olduğu anlamına gelir, bu da H_0'dan kesinlikle bir farklılık olmadığını gösterir . Bu test istatistiğinin 0 olduğunu gösterir . Gruplar arasındaki ortalama fark 0 olur . Bu durumda ortalama fark için % 95 \ güven aralığının sınırları ne olur ? Onlar olur muμ=0σ=1N-=16tp1,00000'H00095%[0.0,0.0] ?

'H0 asıl nokta, ne zaman H_0'ın gerçekten doğru olduğunu söyleyebiliriz , yani μ1=μ2 ? Ya da sıkça yapılan bir çerçevede iki yolu karşılaştırırken gerçekten "fark yok" diyebiliriz?


1
Bunun zaten burada stats.stackexchange.com/questions/275677/… 'da yanıtlandığını söyleyebilirim , ancak üzerinde ısrar etmiyorum.
Tim

1
Pozitif popülasyon varyansları ile elde etmenin bir yolunu bulmakta zorlanıyorum . p=1
Dave


3
"Grup başına N = 16 olduğunu varsayıyoruz ve t testi kullanıyoruz. Bu, p-değerinin 1.00000 olduğu anlamına gelir, bu da H0'dan kesinlikle bir farklılık olmadığını gösterir." Neden bir şeyin ('bu' neyi ifade eder?) P-değerinin 1 olduğunu ifade ediyorsun. H_0 doğru olduğunda ve p = 1 neredeyse hiç gerçekleşmediğinde p-değeri eşit olarak dağıtılır.
Sextus Empiricus

2
@MartijnWeterings Kesinlikle doğrudur - aslında aynı olan iki dağıtımdan örnek almanız, bunları karşılaştırırken 1'lik bir p değeri alacağınız anlamına gelmez. Tanım olarak, zamanın% 5'i 0,05'in altında bir p değeri alırsınız.
Nükleer Wang

Yanıtlar:


17

Bir t testi için güven aralığı , burada ve örnek araçlardır, verilen kritik değeridir ve ortalama farkın standart hatasıdır. Eğer , o . Yani formül sadece ve sınırlar sadece { ,x¯1x¯2±tcrit,αsx¯1x¯2x¯1x¯2tcrit,αtαsx¯1x¯2p=1.0x¯1-x¯2=0±tcrit,αsx¯1-x¯2-tcrit,αsx¯1-x¯2tcrit,αsx¯1-x¯2 }.

Sınırların neden olacağını düşündüğünüzden emin değilimKritik değeri sıfır değildir ve ortalama farkın standart hatası sıfır değildir.{0,0}.t


10

Süper tembel olmak, R'yi hesaplamaları elle yapmak yerine sayısal olarak çözmek için kullanma:

Normal olarak dağıtılmış değerleri ortalama (neredeyse!) Tam sıfır ve tam 1 SD ile verecek bir fonksiyon tanımlayın :

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Bir t testi yapın:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Kayan nokta belirsizliği nedeniyle araçlar tam olarak sıfır değildir.

Daha doğrudan, CI'ler ; her ortalamanın varyansı 1/16, dolayısıyla toplanan varyans 1/8'dir.± sqrt(1/8)*qt(0.975,df=30)


8

CI'nin herhangi bir limiti olabilir, ancak tam olarak sıfır etrafında merkezlenir

İki örnekli bir T testi için (iki popülasyonun ortalamalarındaki bir farkın test edilmesi), tam olarak bir p değeri, gözlemlenen örnekleme araçlarının tam olarak eşit olduğu duruma karşılık gelir. (Örnek sapmaları herhangi bir değeri alabilir.) Bunu görmek için, sınama için p-değeri işlevinin şu olduğuna dikkat edin:

pp(x,y)=P(|X¯-Y¯SY/nY+SY/nY||x¯-y¯sY/nY+sY/nY|).

Böylece, ayarının sonucu :x¯=y¯

p(x,y)=P(|X¯-Y¯SY/nY+SY/nY|0)=1.

Şimdi, Welch-Satterwaite yaklaşımını kullanarak standart (yaklaşık) güven aralığını oluşturduğunuzu varsayalım. Bu durumda, (bir tanesinin tam p değerini vermek için) güven aralığını verirseniz:x¯=y¯

CI(1-α)=[0±sXnX+tDF,α/2sYnY],

burada serbestlik derecesi , Welch-Satterwaite yaklaşımı ile belirlenir. Problemdeki gözlemlenen örnek varyanslarına bağlı olarak, güven aralığı sıfır merkezli herhangi bir sonlu aralık olabilir. Yani, güven aralığının tam olarak sıfıra yakın olduğu sürece herhangi bir sınırı olabilir.DF


Tabii ki, temel veriler gerçekte sürekli bir dağıtımdan geliyorsa, bu olay sıfır olasılıkla gerçekleşir, ancak varsayalım.


Soru "σ tahmini = 1" diyor.
Birikim

Bu durum bir p değeri elde etmek için gerekli değildir, bu yüzden onu düşürdüm.
Ben - Monica'yı yeniden

3

0 olma olasılığı olan şeyler hakkında ortak bir felsefi tartışma yapmak zordur. Size sorunuzla ilgili bazı örnekler göstereceğim.

Aynı dağıtımdan iki muazzam bağımsız örneğiniz varsa, her iki numunenin de bazı değişkenlikleri olacaktır, toplanan 2 örnekli t istatistiği yakın olacaktır, ancak tam olarak 0 değilse , P değeri olarak dağıtılacaktır. ve% 95 güven aralığı çok kısa olacak ve merkeze çok yakın olacaktırUnbenf(0,1),0.

Böyle bir veri kümesi ve t testine bir örnek:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

İşte bu tür 10.000 durumun özet sonuçları. İlk olarak, P-değerlerinin dağılımı.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

resim açıklamasını buraya girin

Sonraki test istatistiği:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

resim açıklamasını buraya girin

Ve böylece CI genişliği için.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

Varsayımların karşılandığı sürekli verilerle kesin bir test yaparak birliğin P değerinin elde edilmesi neredeyse imkansızdır. Öyle ki, akıllı bir istatistikçi P değeri 1'i gördükten sonra yanlış gidenleri düşünecek.

Örneğin, yazılıma iki özdeş büyük örnek verebilirsiniz . Programlama, bunlar iki bağımsız örnekmiş gibi devam edecek ve garip sonuçlar verecektir. Ancak o zaman bile CI 0 genişlikte olmayacaktır.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

Normal dağılım süreklidir Çünkü için olasılık, ancak, tüm fuar yeter herhangi yapar, spesifik bir örnek sıfırdır önemli değil u1 = u2 veya u1-u2 = -0,977 ya da her neyse olsun. Ben de "bu asla olmayacak ve bu durumda şans yanlış bir şey vardır" satırları boyunca yorum cazip geldi, ama sonra düşündüm, hayır, bunun olduğunu varsayalım, Herhangi bir örnek olarak olasılık sıfır .
Lewian

1
Bu yanlış soruya doğru cevap
David

1
@ David. Muhtemelen öyle. Doğru soru olduğuna inandığınızı belirtebilir ve bir yanıt önerebilirsiniz, bu her yerde yardımcı olabilir. Birkaç yanlış anlama olduğunu düşündüğüm şeylerden sadece birkaçını ele almaya çalıştım.
BruceET

OP, "Çok yaygın bir açıklama, H0'ın asla doğru olmadığıdır." @ BruceET'in cevabı neden H0'ın asla kabul edilemeyeceğini gösteriyor. Yakın H0 doğru olmak söz konusu olduğunda, daha homojen rastgele P olur, bu araçları (0.98,0.99) arasında bir P (0.1, 0.2) H0 zaman arasında bir P kadar muhtemeldir olan doğru.
Ron Jensen - Hepimiz Monica

1

Basit cevap (Nuh'a +1), ortalama fark için güven aralığının hala sıfır olmayan bir uzunlukta olabileceğini açıklayacaktır, çünkü numunedeki gözlenen varyasyona p değerinden farklı bir şekilde bağlıdır .

Ancak yine de neden böyle olduğunu merak edebilirsiniz. Yüksek bir p değerinin de küçük bir güven aralığı anlamına geldiğini hayal etmek çok garip olmadığı için. Sonuçta her ikisi de sıfır hipotezinin onaylanmasına yakın bir şeye karşılık gelir. Öyleyse bu düşünce neden doğru değil?

Yüksek bir p değeri, küçük bir güven aralığıyla aynı değildir.

  • P-değeri, belirli bir sapmanın ne kadar aşırı (bazı hipotez verildiğinde aşırı) olduğunun bir göstergesidir. Bu yüzden, gözlenen etkinin büyüklüğü bir ifadesidir göre deney, bu mülâhazalar, istatistiksel / olasılıklı açıdan aşırı değildir şekilde 'yanlış' olduğu zaman büyük gözlenen etki boyutu çok fazla anlamına olabilir Deneyin hassasiyeti ( ). 1'lik bir p değeri gözlemlediğinizde, bu sadece (yalnızca) sıfır etki gözlemlediğiniz anlamına gelir, çünkü böyle bir sıfır sonucu veya daha büyük gözlemleme olasılığı 1'e eşittir (ancak bu sıfır etkisi olduğu ile aynı değildir ).

    Sidenote: Neden p değerleri? P-değeri, beklenen etki büyüklüklerine (olasılıklar) göre gözlemlenen gerçek etki büyüklüğünü ifade eder. Bu önemlidir, çünkü deneyler tasarım gereği veri / gözlemlerdeki yaygın dalgalanmalar nedeniyle saf bir tesadüfle ilgili bazı etki büyüklüğüne ilişkin gözlemler üretebilir. Bir gözlem / deneyin düşük bir p değerine sahip olması, deneyin yüksek bir hassasiyete sahip olduğu anlamına gelir - yani: gözlemlenen etki büyüklüğü şans / dalgalanmalar nedeniyle daha az / muhtemeldir (ve gerçek bir etki nedeniyle muhtemel olabilir) .

    Sidenote: sürekli değişkenler için 1'e eşit olan bu p değeri neredeyse hiç gerçekleşmez, çünkü sıfır ölçüsü olan bir olaydır (Örn. Normal dağıtılmış değişken için ). Ancak ayrık bir değişken veya ayrıklaştırılmış sürekli bir değişken için durum böyle olabilir (en azından olasılık sıfır değildir).X~N-(0,1)P(X=0)=0

  • Güven aralığı , bir  düzeyi hipotez testinin başarılı olacağı değerler aralığı  olarak görülebilir (bunun için p değeri ).αα

    Yüksek bir p-değerinin (zorunlu olarak) sıfır hipotezi için bir kanıt / destek / herhangi bir şey olmadığını belirtmelisiniz . Yüksek p değeri sadece gözlemin belirli bir sıfır hipotezi için dikkate değer / aşırı olmadığı anlamına gelir, ancak bu aynı zamanda alternatif hipotez için de geçerli olabilir (yani sonuç, her iki evet / hayır hipotezine de uygundur ). Bu genellikle veriler fazla bilgi taşımadığında oluşur (örn. Yüksek gürültü veya küçük örnek).

Örnek: Adil ve haksız paralarınız olan bir torba bozuk paranız olduğunu ve belirli bir parayı 20 kez çevirerek sınıflandırmak istediğinizi düşünün. (madalyonun adil paralar için ve haksız paralar için olan bir bernoulli değişkeni olduğunu unutmayın . Bu durumda, 10 kafa ve 10 kuyruk gözlemlediğinizde, p- değeri 1'e eşittir, ancak sanırım haksız bir madalyonun bu sonucu da yaratabileceği açıktır ve madalyonun haksız olma olasılığını göz ardı etmemeliyiz.p0.5p~U(0,1)


1

asıl nokta, ne zaman gerçekten doğru olduğunu söyleyebiliriz , yani ?'H0μ1=μ2

Hayır, çünkü "delil yokluğu yokluk delili değildir." Olasılık, ek belirsizlikler ile mantığın bir uzantısı olarak düşünülebilir , bu yüzden bir an için birim aralıktaki gerçek sayılar yerine, hipotez testinin sadece ikili değerleri döndüreceğini düşünün: 0 (yanlış) veya 1 (doğru). Bu durumda, aşağıdaki örnekte olduğu gibi temel mantık kuralları geçerlidir :

  • Dışarıda yağmur yağarsa, ıslak zeminin olması muhtemeldir.
  • Zemin ıslak.
  • Bu nedenle dışarıda yağmur yağdı.

Yağmur yağdığı için zemin çok iyi ıslak olabilir. Ya da bir sprinkler, oluklarını temizleyen biri, bir su ana kırılması, vb. Olabilir.

Güven aralığıyla ilgili olarak, örneğiniz büyükse ve , farkın güven aralığı son derece dar olur, ancak sıfır olmaz. Başkaları tarafından fark edildiği gibi, kesin olanlar ve sıfırlar gibi şeyleri gözlemleyebilirsiniz, bunun yerine kayan nokta hassasiyet sınırlamaları nedeniyle.μ1-μ20

ve güven aralığını gözlemlemiş olsanız bile , testin size yalnızca yaklaşık yanıtı verdiğini unutmayın. Hipotez testi yaparken, sadece doğru olduğu varsayımını , aynı zamanda örneklerin bağımsız olması ve normal dağılımdan gelmesi gibi bir dizi başka varsayım da yapıyoruz, gerçek dünya verileri için hiçbir zaman böyle değildir. Test, yanlış sorulan soruya yaklaşık bir cevap verir , bu nedenle hipotezi "kanıtlayamaz", sadece "makul olmayan varsayımlar altında bu mümkün olmaz" diyebilir .p=1±0'H0


0

Güven aralığını hesaplamak için standart t veya Gauss formüllerini kullanmanıza engel olan hiçbir şey yoktur; gerekli tüm bilgiler sorunuzda verilmiştir. p = 1, bununla ilgili yanlış bir şey olduğu anlamına gelmez. P = 1'in özellikle H0'ın doğru olduğundan emin olabileceğiniz anlamına gelmediğini unutmayın . Rastgele varyasyon hala mevcuttur ve H0 altında u0 = u1 olabilirse, u0'ın gerçek değeri gerçek u1'den biraz farklıysa, bu nedenle güven aralığında eşitlikten daha fazla olacaktır.


Biraz düzenleme yaptım, umarım şimdi daha tanımlanmıştır.
arkiaamu

Tamam, önceki sürümde kötü tanımlanmış olanlara yapılan referansları kaldırdım. Bu arada soru başkaları tarafından doğru bir şekilde cevaplandı.
Lewian

Lütfen MathJax gösterimini kullanın
David

0

Çok yaygın bir ifade, H0'ın asla doğru olmadığıdır, sadece örneklem büyüklüğü meselesidir.

Ne hakkında konuştuklarını bilen ve tam olarak konuşan insanlar arasında değil. Geleneksel hipotez testleri hiçbir zaman null değerinin doğru olduğu sonucuna varmaz, ancak null değerinin doğru olup olmadığı , null değerinin doğru olduğu sonucundan bağımsızdır .

Bu, p değerinin 1.00000 olduğu anlamına gelir.

İki kuyruklu bir test için, evet.

H0'dan kesinlikle bir farklılık olmadığını gösterir.

'H0'H00'H0H 0'H0 tahminleri, bunun meşru bir şekilde "tutarsızlık" olarak adlandırılacağı anlamına gelir ve ortalamaları modla eşleşmeyen tek bir örneği görmektense.

Bu durumda ortalama fark için% 95 güven aralığının sınırları nedir?

İlk yaklaşım olarak,% 95 güven aralığının sınırları, uygulanabilir standart sapmanın yaklaşık iki katıdır. Sıfırda süreksizlik yoktur. Eğer bir işlev bulursanız aracılığıyla bir fark için% 95 güven aralığı bulur , sadece alabilir için güven aralığı bulmak için ortalama sıfır farkı.f(ε)εlimε0f(ε)

Sorumdaki asıl nokta, ne zaman H0'ın gerçekten doğru olduğunu söyleyebiliriz, yani bu durumda μ1 = μ2?

Ne istersek söyleyebiliriz . Bununla birlikte, bir testin null değerinin gerçek olduğunu gösterdiğini söylemek, sonuçlardan bağımsız olarak geleneksel hipotez testiyle tutarlı değildir. Ve bunu yapmak, bariz bir bakış açısından iyi bir temel oluşturmamıştır. Araçların aynı olmadığı alternatif hipotez, araçlardaki tüm olası farklılıkları kapsar. Alternatif hipotez, "Ortalamalardaki fark , veya veya veya123.50,1, ... "Biz araçlarda keyfi olarak küçük bir fark ortaya koyabiliriz ve bu alternatif hipotezle tutarlı olacaktır. Ve keyfi olarak küçük bir farkla, bu ortalama verilen olasılık keyfi olarak boş olan olasılığa yakındır. alternatif hipotez sadece ortalamalar gibi dağılımların parametrelerinin farklı olma olasılığını değil, tamamen farklı bir dağılımın varlığını da kapsamaktadır, örneğin alternatif hipotez, "İki örneğin her zaman bunun bir farkı olacaktır. her bir "için olasılık .5 ile, tam olarak 1 ya da tam olarak 0 ya da bir. sonuçları daha sonra null olduğu tutarlı.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.