Arsa amacınızda net olmaya değer. Genel olarak, iki farklı hedef türü vardır: Yaptığınız varsayımları değerlendirmek ve veri analizi sürecine rehberlik etmek için kendiniz için planlar yapabilir veya bir sonucu başkalarına iletmek için planlar yapabilirsiniz. Bunlar aynı değil; örneğin, çiziminizin / analizinizin birçok izleyicisi / okuyucusu istatistiksel olarak karmaşık olmayabilir ve örneğin eşit varyans fikrini ve t testindeki rolünü bilmiyor olabilir. Grafiğinizin, verileriniz hakkındaki önemli bilgileri, onlar gibi tüketicilere bile iletmesini istiyorsunuz. Bir şeyi doğru yaptığınıza dolaylı olarak güveniyorlar. Soru düzeninizden, sizi ikinci türden sonra topladım.
Gerçekçi olarak, bir t-testi 1'in sonuçlarını başkalarına iletmek için en yaygın ve kabul edilen grafik (aslında en uygun olup olmadığını bir kenara koyun), standart hata çubuklarına sahip bir araç çubuk grafiğidir. Bu, t-testinin standart hatalarını kullanarak iki yolu karşılaştırması bakımından t-testiyle çok iyi eşleşir. İki bağımsız grubunuz olduğunda, bu, istatistiksel olarak sofistike olmayanlar için bile sezgisel bir resim verecektir ve (veri isteyen) insanlar “muhtemelen iki farklı popülasyondan olduklarını hemen görebilirler”. @ Tim'in verilerini kullanan basit bir örnek:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Bununla birlikte, veri görselleştirme uzmanları genellikle bu grafikleri küçümsüyor. Genellikle "dinamit grafikleri" olarak atılırlar (çapraz başvuru, Neden dinamit grafikleri kötüdür ). Özellikle, yalnızca birkaç veriniz varsa, genellikle verileri kendiniz göstermeniz önerilir . Noktalar çakışırsa, yatay olarak titreyebilirsiniz (az miktarda rastgele gürültü ekleyin), böylece artık çakışmazlar. Bir t-testi temel olarak ortalamalar ve standart hatalar ile ilgili olduğu için, ortalamaları ve standart hataları böyle bir arsa üzerine yerleştirmek en iyisidir. İşte farklı bir sürüm:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Çok fazla veriniz varsa, dağıtımlar hızlı bir genel bakış elde etmek için kutu grafikleri daha iyi bir seçim olabilir ve orada da araçların ve SE'lerin üzerine bindirebilirsiniz.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Verilerin basit grafikleri ve kutu grafikleri, çoğu insanın istatistiksel olarak anlayışlı olmasalar bile bunları anlayabileceği kadar basittir. Bununla birlikte, bunların hiçbirinin, gruplarınızı karşılaştırmak için bir t testi kullanmanın geçerliliğini değerlendirmeyi kolaylaştırmadığını unutmayın. Bu hedeflere en iyi şekilde farklı arsa türleri hizmet eder.
1. Bu tartışmanın bağımsız bir örnek t-testi aldığını unutmayın. Bu grafikler , bağımlı bir örnek t-testi ile kullanılabilir, ancak bu bağlamda da yanıltıcı olabilir (bkz., İç konulardaki bir çalışmada araçlar için hata çubukları kullanmak yanlış mı? ).