İstatistiksel hipotez testlerinin güç analizini anlamak, bazılarını gerçekleştirerek ve sonuçlara yakından bakarak geliştirilebilir.
Tasarım gereği, bir büyüklükteki bir test bir amacı , en az bir ihtimali hipotezini reddetmek için boş doğru (tahmini olduğunda yanlış pozitif oran ). αα Bu özellik ile alternatif prosedürler arasından seçim yapma yeteneğine (veya lüksüne) sahip olduğumuzda, (a) aslında nominal yanlış pozitif orana yaklaşan ve (b) sıfır hipotezini reddetme olasılığının nispeten daha yüksek olduğu şansları tercih ederiz. doğru değil.
İkinci kriter, hangi yol (lar) da ve sıfırın gerçekte ne kadar başarısız olduğunu şart koşmamızı gerektirir . Ders kitabı durumlarında bu kolaydır, çünkü alternatifler kapsam bakımından sınırlıdır ve açıkça belirtilmiştir. Shapiro-Wilk gibi dağıtım testlerinde, alternatif çok daha belirsizdir: "normal değildir". Dağıtım testleri arasından seçim yaparken, analistin, testlerin eldeki problemle ilgili daha spesifik alternatif hipotezlere karşı ne kadar iyi çalıştığını değerlendirmek için kendi tek seferlik güç çalışmasını yürütmesi muhtemeldir.
Michael Mayer'in cevabının motive ettiği bir örnek , alternatif dağılımın Student t dağılımları ailesine benzer niteliklere sahip olabileceğini göstermektedir. (konum ve ölçeğin yanı sıra) ile parametrelenen bu aile, büyük Normal dağılımlarını sınırlar.ν≥ 1ν
Her iki durumda da - gerçek test boyutunu veya gücünü değerlendirmek olsun - belirli bir dağıtımdan bağımsız örnekler oluşturmalı, testi her örnek üzerinde çalıştırmalı ve sıfır hipotezini reddetme oranını bulmalıyız. Bununla birlikte, herhangi bir test sonucunda daha fazla bilgi vardır: P değeri. Böyle bir simülasyon sırasında üretilen P-değerleri kümesini koruyarak, daha sonra testin umursadığımız herhangi bir değeri için null değerini reddetme oranını değerlendirebiliriz . Bu durumda, güç analizinin kalbi, bu P-değeri dağılımını üreten bir alt rutindir (ya daha önce açıklandığı gibi simülasyonla ya da - bazen - teorik bir formülle). İşte kodlanmış bir örnek . Argümanları şunları içerir:αR
rdist
, bazı dağıtımlardan rastgele örnek üretme işlevinin adı
n
, talep edilecek örneklerin boyutu rdist
n.iter
, elde edilecek bu tür numunelerin sayısı
...
, aktarılacak isteğe bağlı parametreler rdist
(serbestlik dereceleri ).ν
Kalan parametreler sonuçların görüntülenmesini kontrol eder; bunlar çoğunlukla bu cevaptaki rakamları oluşturmak için bir kolaylık olarak dahil edilmiştir.
sim <- function(rdist, n, n.iter, prefix="",
breaks=seq(0, 1, length.out=20), alpha=0.05,
plot=TRUE, ...) {
# The simulated P-values.
# NB: The optional arguments "..." are passed to `rdist` to specify
# its parameters (if any).
x <- apply(matrix(rdist(n*n.iter, ...), ncol=n.iter), 2,
function(y) shapiro.test(y)$p.value)
# The histogram of P-values, if requested.
if (plot) {
power <- mean(x <= alpha)
round.n <- 1+ceiling(log(1 + n.iter * power * (1-power), base=10) / 2)
hist(x[x <= max(breaks)], xlab=paste("P value (n=", n, ")", sep=""),
breaks=breaks,
main=paste(prefix, "(power=", format(power, digits=round.n), ")", sep=""))
# Specially color the "significant" part of the histogram
hist(x[x <= alpha], breaks=breaks, col="#e0404080", add=TRUE)
}
# Return the array of P-values for any further processing.
return(x)
}
Hesaplamanın aslında sadece bir satır aldığını görebilirsiniz; kodun geri kalanı histogramı çizer. Bunu açıklamak için, beklenen yanlış pozitif oranları hesaplamak için kullanalım. Bir testin özellikleri genellikle örnek büyüklüğüne göre değiştiğinden, "Ücretler" çoğul halindedir. O örnek boyutları büyük olduğu zaman bölüşüm testler niteliksel küçük alternatiflere karşı yüksek güce sahip olduğunu tanınmış olduğundan, bu çalışma genellikle böyle testler pratikte uygulanan küçük bir örnek boyutlarda odaklanır: genellikle yaklaşık ile hesaplamasını kaydetmek için sefer, değerlerine sadece rapor den kadar5100.n520.
n.iter <- 10^5 # Number of samples to generate
n.spec <- c(5, 10, 20) # Sample sizes to study
par(mfrow=c(1,length(n.spec))) # Organize subsequent plots into a tableau
system.time(
invisible(sapply(n.spec, function(n) sim(rnorm, n, n.iter, prefix="DF = Inf ")))
)
Parametreleri belirledikten sonra, bu kod da sadece bir satırdır. Aşağıdaki çıktıyı verir:
Bu beklenen görünümdür: histogramlar P değerlerinin ila arasında neredeyse eşit dağılımlarını gösterir . Nominal boyut ayarlandığında , P-değerlerinin ile arasında simülasyonlar aslında bu eşikten daha azdı: bunlar kırmızı ile vurgulanan sonuçlardır. Bu frekansların nominal değere yakınlığı, Shapiro-Wilk testinin reklamı yapılan şekilde gerçekleştirildiğini kanıtlar.01α=0.05,.04810.0499
( yakınındaki alışılmadık derecede yüksek bir P-değeri sıklığına doğru bir eğilim var gibi görünmektedir . Bu çok endişe vericidir, çünkü neredeyse tüm uygulamalarda birinin baktığı tek P-değerleri veya daha azdır.)10.2
Şimdi gücü değerlendirmeye bakalım. Student t dağılımı için değerlerinin tamamı, ile arasındaki birkaç örneği değerlendirerek yeterli şekilde incelenebilir . Bunu nasıl bilebilirim? Ben (den tekrarlamalar çok küçük sayılar kullanılarak bazı ön koşular gerçekleştirilen için da hiç zaman alır ki,). Kod şimdi bir çift döngü gerektirir (ve daha karmaşık durumlarda, değişmemiz gereken tüm yönleri karşılamak için genellikle üçlü veya dörtlü döngülere ihtiyacımız vardır): biri gücün örnek boyutuna göre nasıl değiştiğini incelemek ve diğeri de nasıl değiştiğini incelemek için serbestlik derecesi. Yine de, her şey sadece bir kod satırında (üçüncü ve son) yapılır:νν=100ν=11001000
df.spec <- c(64, 16, 4, 2, 1)
par(mfrow=c(length(n.spec), length(df.spec)))
for (n in n.spec)
for (df in df.spec)
tmp <- sim(rt, n, n.iter, prefix=paste("DF =", df, ""), df=df)
Bu tabloyla ilgili küçük bir çalışma, güç hakkında iyi sezgi sağlar. En dikkat çekici ve yararlı yönlerine dikkat çekmek istiyorum:
Serbestlik dereceleri soldaki sağdaki , giderek artan sayıda P değeri küçüktür ve bu dağılımları Normal dağılımdan ayırt etme gücünün arttığını gösterir. (Güç her çizim başlığında ölçülür: histogramın kırmızı alanın oranına eşittir.)ν=64ν=1
Örnek boyutu üst sıradaki alttaki yükseldikçe, güç de artar.n=5n=20
Alternatif dağılım null dağılımdan nasıl farklılaştıkça ve örnek büyüklüğü arttıkça, P-değerleri sola toplanmaya başlar, ancak bunların uzanan bir "kuyruğu" vardır . Bu güç çalışmalarının karakteristiğidir. Testin bir kumar olduğunu gösterir : sıfır hipotezi açıkça ihlal edildiğinde ve örneklem büyüklüğümüz oldukça büyük olsa bile, resmi testimiz önemli bir sonuç vermeyebilir.1
Sağ altta, serbestlik derecesine sahip bir öğrenci dağılımından (Cauchy dağılımı) örneğin alındığı aşırı uçta bile , güç değildir : şansı vardır iid Cauchy değişkenli bir numunenin (yani güven ile) seviyesinde Normal'den önemli ölçüde farklı kabul edilmeyeceğini unutmayın .2011100−86.57=13%205%95%
Bu histogramlardaki çubukların daha fazla veya daha azını renklendirerek, seçtiğimiz herhangi bir değerinde gücü değerlendirebiliriz . Örneğin, gücü olarak değerlendirmek için , her bir histogramdaki sol iki rengi ve alanını toplamın bir kısmı olarak tahmin edin.αα=0.10
(Bu, bu rakamla küçük değerleri için çok iyi çalışmaz . Uygulamada, histogramlar yalnızca kullanılacak olan aralıkta, belki de ila arasında P değerleriyle sınırlanır ve güç aşağı görsel olarak değerlendirilebilmesi için yeterli ayrıntılı olarak göstermek ve hatta . (Yani ne seçeneğine içindir.) bile daha fazla ayrıntı sağlayabilir simülasyon sonuçlarının sonrası işleme.)α0.05020%α=0.01α=0.005breaks
sim
Aslında, üç kod satırından ne kadar çok şey çıkarılabileceği eğlencelidir: biri belirli bir dağıtımdan iid örneklerini simüle etmek, biri boş bir dağıtım dizisine uygulamak için üçüncüsü ve bunu uygulamak için üçüncüsü bir dizi alternatif dağılım. Bunlar herhangi bir güç analizine giren üç adımdır: gerisi sadece sonuçları özetlemek ve yorumlamaktır.