T-istatistiği bir özelliğin öngörücü yeteneği hakkında söylenecek hiçbir şeyin yanında olmayabilir ve öngörücüyü ekrandan çıkarmak veya öngörücülerin öngörücü bir model haline getirilmesi için kullanılmamalıdır.
P-değerleri sahte özelliklerin önemli olduğunu söylüyor
R'de aşağıdaki senaryo kurulumunu düşünün: İki vektör oluşturalım, ilki sadece rastgele bozuk para çevirmesi:5000
set.seed(154)
N <- 5000
y <- rnorm(N)
İkinci vektör , her biri rastgele olarak eşit boyutta rastgele sınıftan birine atanan gözlemdir :5005000500
N.classes <- 500
rand.class <- factor(cut(1:N, N.classes))
Şimdi y
verilen tahmini tahmin etmek için doğrusal bir modele uyuyoruz rand.classes
.
M <- lm(y ~ rand.class - 1) #(*)
Doğru katsayılarının tümü için değeri bunların hiçbiri var, sıfır herhangi öngörü gücü. Daha azı, çoğu% 5 düzeyinde önemli
ps <- coef(summary(M))[, "Pr(>|t|)"]
hist(ps, breaks=30)
Aslında, öngörücü gücü olmasa da, yaklaşık% 5'inin önemli olmasını beklemeliyiz!
P değerleri önemli özellikleri tespit edemez
İşte diğer yönde bir örnek.
set.seed(154)
N <- 100
x1 <- runif(N)
x2 <- x1 + rnorm(N, sd = 0.05)
y <- x1 + x2 + rnorm(N)
M <- lm(y ~ x1 + x2)
summary(M)
Her biri tahmin gücüne sahip iki ilişkili öngörücü oluşturdum .
M <- lm(y ~ x1 + x2)
summary(M)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1271 0.2092 0.608 0.545
x1 0.8369 2.0954 0.399 0.690
x2 0.9216 2.0097 0.459 0.648
P-değerleri her iki değişkenin de tahmin gücünü tespit edemez, çünkü korelasyon modelin verilerden iki ayrı katsayıyı ne kadar kesin olarak tahmin edebileceğini etkiler.
Çıkarımsal istatistikler, bir değişkenin kestirim gücü veya öneminden bahsetmek için orada değildir. Bu ölçümleri bu şekilde kullanmak kötüye kullanılır. Tahminli doğrusal modellerde değişken seçim için çok daha iyi seçenekler vardır, kullanmayı düşünün glmnet
.
(*) Burada bir kesişimden ayrıldığımı unutmayın, bu yüzden tüm karşılaştırmalar birinci sınıfın grup ortalamasına değil, sıfır taban çizgisine yapılır. Bu @ whuber'ın önerisiydi.
Yorumlarda çok ilginç bir tartışmaya yol açtığından, orijinal kod
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))
ve
M <- lm(y ~ rand.class)
ki bu aşağıdaki histograma yol açtı