İki numunenin ortalamaları önemli ölçüde farklı olduğunda, ancak fark önemli olmayacak kadar küçük olduğunda ne yapmalı?


13

İki örneğim var ( her iki durumda da ). Ortalamalar havuzlanmış std'nin yaklaşık iki katı kadar farklılık gösterir. dev. Ortaya çıkan değeri yaklaşık 10'dur. Sonuçların, araçların aynı olmadığını kesin olarak gösterdiğimi bilmek harika olsa da, bu bana büyük n tarafından yönlendiriliyor gibi görünüyor. Verilerin histogramlarına baktığımda, küçük p değeri gibi verilerin gerçekten temsilcisi olduğunu ve dürüst olmak gerekirse, onu alıntılamaktan gerçekten rahat hissetmediğini kesinlikle düşünmüyorum. Muhtemelen yanlış soruyu soruyorum. Ne düşünüyorum: Tamam, araçlar farklı ama dağıtımları önemli bir çakışma paylaştığında bu gerçekten önemli mi?n70T

Bayesian testinin yararlı olduğu yer burası mı? Eğer öyleyse, başlamak için iyi bir yerse, biraz googling yararlı bir şey sağlamadı, ancak doğru soruyu sormayabilirim. Bu yanlış bir şeyse, herhangi bir öneriniz var mı? Yoksa bu sadece nicel analizin aksine bir tartışma noktası mıdır?


Sadece ilk ifadenizin yanlış olduğu diğer tüm cevaplara eklemek istiyorum: sonuçların araçların farklı olduğunu kesin olarak göstermediniz . Bir t-testinin p değeri, null hipotezi göz önüne alındığında (t-testi için olan bir başka deyişle, : { "Araçlar eşittir"}), bu da aslında araçların farklı olduğu anlamına gelmez . Ayrıca, havuzlanmış varyans t testi yapmadan önce varyansların eşitliğini test etmek için bir F testi yaptığınızı varsayıyorum, değil mi? H 0μA=μBH0
Néstor

Sorunuz çok iyi, çünkü önemli bir ayrım getiriyor ve istatistiki bir çıktıda bazı yıldızlar aramaktan ve kendinizi yaptığınızı beyan etmek yerine aslında verilerinizi düşündüğünüzü gösteriyor. Birkaç cevabın işaret ettiği gibi, istatistiksel anlamlılık anlamlı olmakla aynı şey değildir . Ve bunu düşündüğünüzde, bunlar olamaz: İstatistiksel bir prosedür, istatistiksel olarak anlamlı bir 0.01 farkının Alan A'da bir şey anlamına geldiğini, ancak Alan B'de anlamsız olarak küçük olduğunu nasıl bilecektir?
Wayne

Yeterince adil, dil spot değildi ama p-değeri alıyorum olanlar gibi olduğunda ben kelimeler hakkında çok telaşlı değil eğilimindedir. Bir F testi (ve bir QQ-komplo) yaptım. Dedikleri gibi caz için yeterince yakın.
Bowler

1
FWIW, araçlarınız 2 SD ise, bu benim için oldukça büyük bir fark gibi görünüyor. Tabii ki bu sizin alanınıza bağlı olacaktır, ancak bu insanların çıplak gözle kolayca fark edebileceği bir farktır (örneğin, 20-29 yaş arası ABD erkek ve kadınların ortalama yükseklikleri yaklaşık 1,5 SD ile farklılık gösterir.) IMO, dağıtımlar don hiçbir şekilde örtüşmüyorsa, herhangi bir veri analizi yapmanız gerekmez; en azından, 6 kadar küçük w / , dağılımlar çakışmazsa <.05 olacaktır. pNp
gung - Monica'yı eski durumuna döndürün

Bu farkın, ortaya çıktığı gibi tamamen saygısız olmasına rağmen büyük olduğuna katılıyorum.
Bowler

Yanıtlar:


12

Let anlamında olabildikleri ilk nüfus ve ortalama anlamında olabildikleri ikinci popülasyonun ortalama. olup olmadığını test etmek için iki örnekli bir testi kullandığınız . Önemli sonuç, anlamına gelir , ancak uygulamanız için fark küçüktür.μ 2 t μ 1 = μ 2 μ 1μ 2μ1μ2tμ1=μ2μ1μ2

Karşılaştığınız şey, istatistiksel olarak anlamlı olanın genellikle uygulama için anlamlı olmayan bir şey olabileceğidir . Fark istatistiksel olarak anlamlı olsa da, yine de anlamlı olmayabilir .

Bayes testi bu sorunu çözmez - yine de bir farkın var olduğu sonucuna varacaksınız.

Ancak bir çıkış yolu olabilir. Örneğin, tek taraflı bir hipotez için, , büyük birimleri ise , bunun uygulamanız için önemli olacak kadar büyük anlamlı bir fark olacağına karar verebilirsiniz . Δ μ 2μ1Δμ2

Bu durumda yerine olup olmadığını . -statistic bu durumda olacaktır (eşit varyanslar varsayılarak) burada , toplanmış standart sapma tahminidir. Boş hipotez altında, bu istatistik, bir -Dağıtık ile serbestlik derecesi.μ 1 - μ 2 = 0 t T = ˉ x 1 - ˉ x 2 - Δμ1μ2Δμ1μ2=0t

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Bu testi yapmanın kolay bir yolu, ilk popülasyondan gözlemlerinizden çıkarmak ve daha sonra düzenli tek taraflı iki örnekli bir testi yapmaktır.Δt


8

Birkaç yaklaşımı karşılaştırmak geçerlidir, ancak arzularımızı / inançlarımızı destekleyecek olanı seçmek amacıyla değil.

Sorunuza cevabım şudur: İki dağıtım, farklı araçlara sahipken üst üste gelebilir, bu da sizin durumunuz gibi görünmektedir (ancak daha kesin bir cevap sağlamak için verilerinizi ve bağlamınızı görmemiz gerekir).

Bunu normal yöntemleri karşılaştırmak için birkaç yaklaşım kullanarak açıklayacağım .

1. testit

Bir ve den boyutunda iki simüle edilmiş örneği düşünün , o zaman değeri sizin durumunuzda olduğu gibi yaklaşık (Aşağıdaki R koduna bakın).70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

Ancak yoğunluklar önemli ölçüde örtüşüyor. Ama unutmayın ki, bu durumda açıkça farklı olan araçlar hakkında bir hipotez test ediyorsunuz, değeri nedeniyle , yoğunlukların çakışması var.σ

resim açıklamasını buraya girin

2. Profil olasılığıμ

Profil olasılığı ve olasılığının bir tanımı için lütfen 1 ve 2'ye bakın .

Bu durumda, boyutlu bir örneğin ortalama örneğinin profil olasılığı basitçe .μnx¯Rp(μ)=exp[n(x¯μ)2]

Simüle edilen veriler için, bunlar R'de aşağıdaki gibi hesaplanabilir.

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

Gördüğünüz gibi, ve olasılık aralıkları makul bir düzeyde örtüşmüyor.μ1μ2

3. önce Jeffreys kullanarak posteriorμ

Göz önünde önce Jeffreys arasında(μ,σ)

π(μ,σ)1σ2

Her veri kümesi için posterioru aşağıdaki gibi hesaplanabilirμ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Yine, araçlar için güvenilirlik aralıkları makul bir seviyede örtüşmemektedir.

Sonuç olarak, tüm bu yaklaşımların, dağılımların çakışmasına rağmen, önemli bir araç farkını (ana ilgi alanı) nasıl gösterdiğini görebilirsiniz.

Farklı bir karşılaştırma yaklaşımı

Yoğunlukların çakışmasıyla ilgili endişelerinizden yola çıkarak, bir diğer ilgi miktarı ; bu, ilk rastgele değişkenin ikinci değişkenden daha küçük olma olasılığıdır. Bu miktar, bu cevaptaki gibi parametrik olmayan bir şekilde tahmin edilebilir . Burada herhangi bir dağıtım varsayımı olmadığını unutmayın. Simüle edilen veriler için, bu tahminci , bu anlamda bazı çakışmalar gösterirken, araçlar önemli ölçüde farklıdır. Lütfen, aşağıda gösterilen R koduna bir göz atın.0.8823825P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Umarım bu yardımcı olur.


2
(+1) Baysian yöntemlerine gerçekten faydalı bir cevap için teşekkürler. Ayrıca P (X <Y) bağlantısı aynı analizde merak ettiğim başka bir soruyu cevaplıyor.
Bowler

7

Doğru Soruyu Yanıtlamak

tamam, araçlar farklı ama dağıtımlar önemli bir çakışma paylaştığında bu gerçekten önemli mi?

Grup araçlarının farklı olup olmadığını soran herhangi bir test, doğru çalıştığında, araçların farklı olup olmadığını söyleyecektir. Verilerin kendisinin dağılımlarının farklı olduğunu söylemeyecektir, çünkü bu farklı bir sorudur. Bu soru kesinlikle araçların farklı olup olmamasına değil, aynı zamanda (eksik olarak) varyans, çarpıklık ve basıklık olarak özetlenebilecek diğer birçok şeye de bağlıdır.

Araçların nerede olduğu konusunda kesinliğin, onları tahmin etmek zorunda olduğunuz veri miktarına bağlı olduğunu doğru bir şekilde not edersiniz, bu nedenle daha fazla veriye sahip olmak, neredeyse çakışan dağılımlardaki ortalama farkları tespit etmenize olanak tanır. Ama merak ediyor musun

küçük p değeri gibi gerçekten verileri temsil eder

Gerçekten de öyle değil, en azından doğrudan değil. Ve bu tasarım gereğidir. Verilerin belirli bir çift örnek istatistiğinin (verilerin kendisinin değil) farklı olabileceğinin kesinliğini (yaklaşık olarak konuşursak) temsil eder.

Verilerin kendisini sadece histogramları göstermek ve anlarını test etmekten daha resmi bir şekilde temsil etmek istiyorsanız, belki de bir çift yoğunluk grafiği yardımcı olabilir. Daha doğrusu testi yapmak için kullandığınız argümana bağlıdır.

Bayes Versiyonu

Tüm bu açılardan, Bayes farkı 'testleri' ve T-testleri aynı şekilde davranacaktır çünkü aynı şeyi yapmaya çalışıyorlar. Bir Bayes yaklaşımı kullanmak için düşünebileceğim tek avantajlar şunlardır: a) her grup için muhtemelen farklı varyanslara izin veren testi yapmanın kolay olacağı ve b) ortalamalardaki farkın muhtemel büyüklüğünü tahmin etmeye odaklanacağı fark testi için p değeri bulmak yerine. Bununla birlikte, bu avantajlar oldukça küçüktür: örneğin b) 'de fark için her zaman bir güven aralığı bildirebilirsiniz.

Yukarıdaki 'testler' üzerindeki tırnak işaretleri kasıtlıdır. Bayesci hipotez testi yapmak kesinlikle mümkün ve insanlar yapıyor. Bununla birlikte, yaklaşımın karşılaştırmalı üstünlüğünün, verilerin makul bir modelini oluşturmaya ve önemli yönlerini uygun belirsizlik düzeyleriyle iletmeye odaklandığını ileri süreceğim.


3

Her şeyden önce, bu sık testlere sabitlemek için bir sorun değildir. Sorun, araçların tamamen eşit olduğu sıfır hipotezinde yatmaktadır. Bu nedenle, popülasyonlar ortalama olarak herhangi bir miktarda farklılık gösteriyorsa ve örnek büyüklüğü yeterince büyükse, bu sıfır hipotezi reddetme şansı çok yüksektir. Bu nedenle testiniz için p değerinin çok küçük olduğu ortaya çıktı. Suçlu, sıfır hipotezinin seçimidir. D> 0 seçimini yapın ve araçların mutlak değerde d'den daha az, d'den daha az olduğu yönünde sıfır hipotezini alın. Gerçek farkı reddetmek için tatmin edici büyüklükte olması için d'yi seçersiniz. Sorununuz ortadan kalkar. Bayes testi, araçların eşitliğinin sıfır olduğu hipotezinde ısrar ederseniz sorununuzu çözmez.


Cevabımı diğer ikisiyle aynı zamanda yazıyordum.
Michael R. Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.