Bu fenomenin (önemli bir bireysel değişkene rağmen anlamlı olmayan bir genel testin) bir tür toplu "maskeleme etkisi" olarak anlaşılabileceğini ve çok yönlü açıklayıcı değişkenlerden ortaya çıkabileceğini düşünüldüğü halde, yapılması gerektiğini belirtmek isterim. hiç de değil. Ayrıca, çoklu karşılaştırma ayarlarından da kaynaklanmıyor. Bu nedenle, bu cevap, daha önce ortaya çıkmış olan cevaplara bazı nitelikler katmaktadır, bunun aksine, çok kutupluluk veya çoklu karşılaştırmaların suçlulara bakılması gerektiğini göstermektedir.
Bu iddiaların uygunluğunu belirlemek için, tam olarak ortogonal değişkenler - mümkün olduğu kadar collinear olmayan - ve sadece açıklamaların ilkiyle açıkça belirlenmiş bir bağımlı değişken (ve iyi miktarda rastgele hata) oluşturalım her şeyden bağımsız). Bu R
yapılabilir (denemek isterseniz, deneysel olarak)
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Açıklayıcı değişkenlerin ikili olması önemsizdir; önemli olan ortogonalitedir, kodun beklendiği gibi çalıştığından emin olmak için kontrol edebiliriz, bu onların korelasyonlarını inceleyerek yapılabilir. Aslında, korelasyon matrisi ilginçtir : önerilen küçük katsayılar y
, birincisi (tasarım tarafından olan) ve diyagonal olmayan sıfırların dışındaki değişkenlerin hiçbiriyle ilgisi olmadığını ve açıklayıcı değişkenlerin dikgenliğini onayladığını gösterir:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Şimdi sadece ilk değişkeni, sonra ilk ikisini kullanarak bir dizi regresyon çalıştıralım . Kısalıklık ve kolay karşılaştırma için, her birinde yalnızca ilk değişken ve genel F testi için satır gösteriyorum:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
(A) ilk değişkenin öneminin ne kadar değiştiğine bakın, (a ') ilk değişkenin çoklu karşılaştırmalar için ayarlama yaparken bile (p <.05) anlamlı kalmaya devam etmesini sağlayın ( örneğin , Bonferroni'yi nominal p-değeri ile çarparak uygulayın). açıklayıcı değişkenlerin sayısı), (b) ilk değişkenin katsayısı zar zor değişiyor, fakat (c) genel önem katlanarak artmakta ve hızla anlamlı olmayan bir seviyeye şişmektedir.
Bunu , bağımlı değişkenden büyük ölçüde bağımsız olan açıklayıcı değişkenleri dahil etmenin, regresyonun genel p-değerini "maskeleyebileceğini" göstermek olarak yorumluyorum . Yeni değişkenler var olanlara ve bağımlı değişkene dikey olduğunda, bireysel p-değerlerini değiştirmezler. (Burada görülen küçük değişiklikler, buna eklenen rasgele hatanın y
, kazayla, diğer tüm değişkenlerle hafifçe korelasyon göstermesidir.) Bundan çıkarılacak bir ders, para cezasının değerli olduğudur : Gerektiği kadar az değişken kullanmak, önemini artırabilir. sonuçlar.
Ben am değil bu mutlaka küçük ifşa edildiği konusunda söz konusu veri kümesi için oluyor söyleyerek. Ancak bu maskeleme etkisinin olabileceği bilgisi , sonuçların yorumlanmasının yanı sıra değişken seçimi ve model oluşturma stratejilerimizi de bilgilendirmelidir.