P-değeri, sıfır hipotezinin doğru olduğu varsayılarak, en azından gözlemlendiği kadar aşırı bir test istatistiği elde etme olasılığı olarak tanımlanır. Diğer bir deyişle,
Peki ya test istatistiği dağılımda bimodal ise? p değeri bu bağlamda bir şey ifade ediyor mu? Örneğin, ben R bazı bimodal verileri simüle edeceğim:
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
Ve diyelim ki 60'lık bir test istatistik değeri gözlemliyoruz. Ve burada resimden bu değerin çok düşük olduğunu biliyoruz . İdeal olarak, bunu ortaya koymak için kullandığım istatistik prosedürü (örneğin, p-değeri) istiyorum. Ancak, tanımlandığı gibi p değeri hesaplarsak, oldukça yüksek bir p değeri elde ederiz.
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Dağılımı bilmeseydim, gözlemlediğim şeyin rastgele tesadüf olduğu sonucuna varabilirdim. Ama bunun doğru olmadığını biliyoruz.
Sanırım şu sorum var: Neden p-değerini hesaplarken, değerlerin olasılığını "en azından en az" gözlemlenen kadar hesaplıyoruz? Ve yukarıda simüle ettiğim gibi bir durumla karşılaşırsam, alternatif çözüm nedir?