Pek çok p-değerinin homojen bir dağılımı H0'nın doğru olduğuna dair istatistiksel kanıt veriyor mu?


28

Tek bir istatistiksel test, boş hipotezin (H0) yanlış olduğu ve bu nedenle alternatif hipotezin (H1) doğru olduğuna dair kanıt verebilir. Ancak H0’ın doğru olduğunu göstermek için kullanılamaz çünkü H0’yı reddetmek başarısızlık H0’nin doğru olduğu anlamına gelmez.

Ancak, istatistiksel testi birçok kez yapma şansınız olduğunu varsayalım, çünkü birbirinizden bağımsız birçok veri kümeniz var. Tüm veri kümeleri aynı işlemin sonucudur ve işlemin kendisiyle ilgili bazı açıklamalar (H0 / H1) yapmak istiyorsunuz ve her bir testin sonuçlarına ilgi duymuyorsunuz. Daha sonra ortaya çıkan tüm p değerlerini toplarsınız ve histogram grafiği aracılığıyla p değerlerinin net bir şekilde eşit bir şekilde dağıldığını görürsünüz.

Benim akıl yürütmem şu ki, bu sadece H0 doğruysa gerçekleşebilir - p değerleri farklı şekilde dağıtılır. Bu nedenle H0'ın doğru olduğu sonucuna varmak için yeterli kanıt var mı? Ya da burada önemli bir şeyi özlüyorum, çünkü kafamda çok yanlış ses çıkaran "H0'un doğru olduğu sonucunu" yazmam çok fazla isteme geldi.


1
Buradaki hipotezler hakkında bazı yorumları olan farklı bir istatistik istatistikine cevap yazmamın ilgini çekebilir .
mdewey,

H0 tanımı ile yanlış.
Joshua

1
Yan bir notta, bu kadar çok test yaptırmamın (ve tüm verileri tek bir testte birleştirmemesinin) sebebi, verilerimin dünya genelinde mekansal olarak dağılmış olması ve dünyada mekansal kalıpların olup olmadığını görmek istedim. p-değerleri (yok, ancak olsaydı, ya bağımsızlığın ihlal edildiği ya da H0 / H1’in dünyanın farklı yerlerinde doğru olduğu anlamına gelirdi). Bunu soru metnine dahil etmedim çünkü genel tutmak istedim.
Leander Moesinger,

Yanıtlar:


22

Sorunuzu beğendim ama maalesef cevabım HAYIR, H0 olduğunu kanıtlamıyor . Sebep çok basit. P değerlerinin dağılımının tek tip olduğunu nasıl bildin? Muhtemelen, size kendi p-değerini geri getirecek bir tek biçimlilik testi yapmak zorunda kalacaksınız ve kaçınmaya çalıştığınız aynı çıkarım sorusu ile bitirdiniz, sadece bir adım daha ileride. Orijinal H0 nın p değerine bakmak yerine , şimdi orijinal p-değerlerinin dağılımının tek biçimliliği hakkında başka bir H0 değerine bakıyorsunuz .

GÜNCELLEŞTİRME

İşte gösteri. Gaussian ve Poisson dağılımından 100 gözlemden 100 örnek üretiyorum, ardından her bir örneğin normalite testi için 100 p-değeri elde ettim. Dolayısıyla, sorunun öncülü, eğer p-değerleri tekdüze dağılımdan geliyorsa, o zaman, normal çıkarımda istatistiksel bir çıkarımda "reddetme" den daha güçlü bir ifade olan sıfır hipotezinin doğru olduğunu kanıtlar. Sorun şu ki, "p-değerleri tekdüzedir", bir şekilde denemeniz gereken bir hipotezdir.

Aşağıdaki resimde (ilk satır) Guassian ve Poisson örneği için bir normallik testinden p değerlerinin histogramlarını gösteriyorum ve birinin diğerinden daha tek tip olup olmadığını söylemenin zor olduğunu görebilirsiniz. Bu benim ana noktamdı.

İkinci satır, her dağıtımdan örneklerden birini gösterir. Numuneler nispeten küçüktür, bu yüzden gerçekten çok fazla kutuya sahip olamazsınız. Aslında, bu belirli Gaussian örneği, histogramda o kadar fazla Gauss'a benzemiyor.

Üçüncü satırda, her bir dağıtım için 10.000 gözlemin birleştirilmiş örneklerini bir histogram üzerinde gösteriyorum. Burada, daha fazla kutuya sahip olabilirsiniz ve şekiller daha belirgindir.

Sonunda, aynı normallik testini yapıyorum ve birleştirilmiş numuneler için p-değerleri alıyorum ve Gaussian için reddetmediği halde Poisson için normallik reddediyorum. P değerleri şunlardır: [0.45348631] [0.]

görüntü tanımını buraya girin

Elbette bu bir kanıt değil, p-değerlerinin alt örneklerden dağılımını analiz etmek yerine, aynı testi birleştirilmiş örnek üzerinde daha iyi yaptığınız fikrinin kanıtıdır.

İşte Python kodu:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()

2
@LeanderMoesinger, tüm testlerinizi bir araya getirerek daha güçlü bir noktaya varacaksınız. Diyelim ki 100 gözlemden oluşan bir örnekleminiz var ve p değerini alın; Daha sonra 99 ek örnek alın ve 100 p değerinde bitirin. Bunun yerine, sadece bir 10.000 gözlem örneği çalıştırabilir ve p-değeri elde edebilirsiniz, ancak daha ikna edici olacaktır.
Aksakal

1
@LeanderMoesinger, küçük olmaması olabilecekse
Aksakal

1
Cevabınız, sorusunu sormaz o belgeleri ile ilgili ama sormadın kanıt .
Carlos Cinelli

3
@CarlosCinelli, tekdüze olduğunu iddia edeceği bir sürü p-değere sahip olacak. Değerlerin tekdüze olduğunu kanıtlamadıkça bu nasıl bir delildir ? Ben de bundan bahsediyorum.
Aksakal,

2
@Aksakal bu matematikle ilgili, gözlemlenen bir olay (p-değerleri dizisi gibi) bir şeyin kanıtını teşkil etmeyebilir, ancak nedeni mantıksal olarak argümanınızdan takip etmiyor olabilir.
Carlos Cinelli

21

n

H0H0

David Hume ve indüksiyon sorunu

H0H0

aA[aB]

  • Yüzyıllar boyunca Avrupalıların gözlemlediği her kuğu beyazdı. Sonra Avrupalılar Avustralya'yı keşfetti ve siyah kuğular gördü.

  • Yüzyıllar boyunca, Newton'un yerçekimi kanunu gözlemle kabul edildi ve doğru olduğu düşünülüyordu. Einstein'ın genel görelilik teorisi tarafından olsa da bozuldu.

H0

İleriye giden yolların (eksik) bir listesi:

Karl Popper ve sahtecilik

In Karl Popper'ın görünümü, hiçbir bilimsel yasa hiç doğru kanıtlanmış. Sadece henüz yanlış olduğu kanıtlanmayan bilimsel yasalarımız var.

Popper, bilimin hipotezleri tahmin ederek ve onları titiz bir incelemeye maruz bırakarak ilerlediğini savundu. Tümevarımla ilerler (gözlem teorilerinin yanlış olduğunu ispatlar), indüksiyonla değil (tekrarlanan gözlem gerçek teorileri kanıtlar). Sık kullanılan istatistiklerin çoğu bu felsefe ile tutarlı olarak oluşturulmuştur.

Popper'ın görüşü son derece etkili olmuştur, ancak Kuhn ve diğerlerinin iddia ettiği gibi, ampirik olarak başarılı bir bilim uygulamasına tam olarak uymuyor.

Bayes, öznel olasılık

θ

θθθP(θ)P(θX)θX. Çeşitli durumlarda nasıl davrandığınız, bu öznel olasılıklarla ilgili bazı yazışmalara sahiptir.

Bu, kendi öznel inançlarınızı modellemenin mantıklı bir yoludur, ancak gerçeğe uygunluk açısından doğru olan olasılıkları üretmenin sihirli bir yolu değildir. Herhangi bir Bayesian yorumu için zor bir soru, öncelikler nereden geliyor? Ayrıca, eğer model yanlış belirlenmişse?

George P. Box

George EP Box'un ünlü bir aforizması, "tüm modeller yanlış, ancak bazıları yararlıdır" dır.

Newton'un kanunu doğru olmayabilir, ancak birçok sorun için hala yararlıdır. Box'ın görüşü, çalışmaların o kadar güçlendiği modern büyük veri bağlamında oldukça önemlidir; temelde anlamlı bir teklifi reddedebilirsiniz. Yanlışa karşı kesinlikle doğru olanı kötü bir sorudur: Önemli olan modelin verileri anlamanıza yardımcı olup olmadığıdır.

Ek Yorumlar

θ0

Belki de ilgilenilen, çoklu çalışmaların sonuçlarını istatistiksel olarak analiz etmek meta-analiz olarak adlandırılır .

Dar istatistiksel yorumların ne kadar ötesine geçebileceğiniz zor bir sorudur.


Bu ilginç bir okuma oldu ve düşünmek için güzel şeyler verdi! Keşke birden fazla cevabı kabul edebilseydim.
Leander Moesinger

Oldukça bir açıklama. Profesörüm bir keresinde
Kuhn'u

Kuhn ve Popper, gözlemlerini iddia ederken bilimin nasıl yapıldığına uymadığını iddia ederken meşhur bir şekilde yanlış yorumluyor. Bu yerli Yanlışlamacılık olarak bilinir ve öyle olduğu değil Popper (daha sonra) ortaya atılan neyi. Bu saman adam.
Konrad Rudolph

2
StackExchange sitelerini ziyaret etmeye devam ediyorum.
Trilarion

5

Bir anlamda bazı küçük uyarılar ile haklısın (p eğrisine bakın):

  1. Alternatifin altında biraz güç sahibi olmak için teste ihtiyacınız var. Potansiyel problemin gösterimi: 0'dan 1'e homojen bir dağılım olarak bir p değeri üretmek ve ne zaman reddetmekpα is a (admittedly pretty useless) level α test for any null hypothesis, but you will get a uniform distribution of p-values whether H0 is true or not.
  2. You can only really show that you are quite close to H0 being true (i.e. under the true parameter values three distribution might be close to uniform, even if H0 is false.

With realistic applications, you tend to get additional issues. These mostly arise, because no one person/lab/study group can usually do all the necessary studies. As a result one tends to look at studies from lots of groups, at which point you have increased concerns (i.e. if you had done all relevant experiments yourself, at least you'd know) of underreporting, selective reporting of significant/surprising findings, p-hacking, multiple testing/multiple testing corrections and so on.


1
(+1) The power point is hugely important! Different theories can produce observationally equivalent data, and a critical part of experiment design is to produce and/or collect data that would allow you to distinguish.
Matthew Gunn

-2

Null hypothesis (H0): Gravity causes everything in the universe to fall toward Earth's surface.

Alternate hypothesis (H1): Nothing ever falls.

Performed 1 million experiments with dozens of household objects, fail to reject H0 with p<0.01 every time. Is H0 true?


2
Do you think Galileo did one million trials? None of this stuff is necessary in physical sciences. Establishing the laws of nature by applying scientific method does not reduce into statistical inference.
Aksakal

1
-1 This is scientifically, statistically, and historically inaccurate. Greeks once believed that it was affinity that drew objects to the Earth. Not bad, but doesn't explain the 3+ body system problems well. Hypotheses should be complementary. Lastly stating a possibly known bias as H_0 and showing experiments continue to lead to the same incorrect conclusion doesn't make the conclusion correct. e.g. women earn less than men b/c they are less driven, sample all women's salaries, H_0 is true!
AdamO

@AdamO that is exactly my point.
usul

@AdamO, in the Western countries women earn less when they work less for a variety of reasons including their own choice, disincentives of all kinds and hostile work environment in some places. When they work the same, they earn about the same, e.g. see medicare nurse salaries where women are the great majority: medscape.com/slideshow/…. They all earn the same $37 when working hourly. Totally off-topic, of course.
Aksakal

2
If your null hypothesis is Gravity causes everything in the universe to fall toward Earth's surface isn't the alternative hypothesis There is at least one thing in the universe that does not fall toward the Earth's surface and not Nothing ever falls?
Eff
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.