P değerine dayalı özellikler seçmek yanlış mıdır?


12

Özelliklerin nasıl seçileceği hakkında birkaç mesaj vardır . Yöntemlerden biri, t istatistiklerine dayalı özellik önemini açıklar. Standart özelliklere varImp(model)sahip doğrusal model üzerine uygulanan R'de , her model parametresi için t istatistik istatistiği kullanılır. Temel olarak, t istatistiklerine dayanarak bir özellik seçiyoruz, yani katsayının ne kadar kesin olduğu. Fakat katsayımın kesinliği bana özelliğin öngörücü yetenekleri hakkında bir şey söylüyor mu?

Özelliğim düşük bir t-istatistiğine sahip olabilir, ancak yine de modelin doğruluğunu artırabilir mi (diyelim)? Evet ise, t istatistiklerine dayalı olarak değişkenler ne zaman hariç tutulur? Yoksa önemli olmayan değişkenlerin tahmin yeteneklerini kontrol etmek için sadece bir başlangıç ​​noktası veriyor mu?


3
Ortalamanın tek örnekli bir testi için, t istatistiği sadece örnek ortalamanın tahmini standart hataya (örnek standart sapması, örnek büyüklüğünün kare köküne bölünmesiyle) bölünür. Bu istatistik tek başına herhangi bir hipoteze bağlı değildir . Bu istatistik gelen ap değer kaynaklanan gelmez bir hipoteze bağlıdır.
Dan Hicks

@DanHicks sorumu düzenledim.
Alina

Caret hakkında çok bilgim yok, ancak varImp()bilgilendirici veya tanılayıcı bir işlev olması ve doğrudan özellik seçimi veya ortadan kaldırılması için kullanılmadığı anlaşılıyor .
david25272

Yanıtlar:


11

T-istatistiği bir özelliğin öngörücü yeteneği hakkında söylenecek hiçbir şeyin yanında olmayabilir ve öngörücüyü ekrandan çıkarmak veya öngörücülerin öngörücü bir model haline getirilmesi için kullanılmamalıdır.

P-değerleri sahte özelliklerin önemli olduğunu söylüyor

R'de aşağıdaki senaryo kurulumunu düşünün: İki vektör oluşturalım, ilki sadece rastgele bozuk para çevirmesi:5000

set.seed(154)
N <- 5000
y <- rnorm(N)

İkinci vektör , her biri rastgele olarak eşit boyutta rastgele sınıftan birine atanan gözlemdir :5005000500

N.classes <- 500
rand.class <- factor(cut(1:N, N.classes))

Şimdi yverilen tahmini tahmin etmek için doğrusal bir modele uyuyoruz rand.classes.

M <- lm(y ~ rand.class - 1) #(*)

Doğru katsayılarının tümü için değeri bunların hiçbiri var, sıfır herhangi öngörü gücü. Daha azı, çoğu% 5 düzeyinde önemli

ps <- coef(summary(M))[, "Pr(>|t|)"]
hist(ps, breaks=30)

P-değerlerinin histogramı

Aslında, öngörücü gücü olmasa da, yaklaşık% 5'inin önemli olmasını beklemeliyiz!

P değerleri önemli özellikleri tespit edemez

İşte diğer yönde bir örnek.

set.seed(154)
N <- 100
x1 <- runif(N)
x2 <- x1 + rnorm(N, sd = 0.05)
y <- x1 + x2 + rnorm(N)

M <- lm(y ~ x1 + x2)
summary(M)

Her biri tahmin gücüne sahip iki ilişkili öngörücü oluşturdum .

M <- lm(y ~ x1 + x2)
summary(M)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.1271     0.2092   0.608    0.545
x1            0.8369     2.0954   0.399    0.690
x2            0.9216     2.0097   0.459    0.648

P-değerleri her iki değişkenin de tahmin gücünü tespit edemez, çünkü korelasyon modelin verilerden iki ayrı katsayıyı ne kadar kesin olarak tahmin edebileceğini etkiler.

Çıkarımsal istatistikler, bir değişkenin kestirim gücü veya öneminden bahsetmek için orada değildir. Bu ölçümleri bu şekilde kullanmak kötüye kullanılır. Tahminli doğrusal modellerde değişken seçim için çok daha iyi seçenekler vardır, kullanmayı düşünün glmnet.

(*) Burada bir kesişimden ayrıldığımı unutmayın, bu yüzden tüm karşılaştırmalar birinci sınıfın grup ortalamasına değil, sıfır taban çizgisine yapılır. Bu @ whuber'ın önerisiydi.

Yorumlarda çok ilginç bir tartışmaya yol açtığından, orijinal kod

rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

ve

M <- lm(y ~ rand.class)

ki bu aşağıdaki histograma yol açtı

P-değerlerinin çarpık histogramı


2
Hmm, bu p-değeri dağılımı neden eşit değil?
amip diyor Reinstate Monica

4
Vay canına, tohum numarasını nasıl seçtin? Neredeyse üniforma ps başka sonuçlar ...
psychOle

3
Bu tür şeyler için her zaman aynı tohumu kullanmaya çalışıyorum: en.wikipedia.org/wiki/154_(album)
Matthew Drury

9
Yanlış testler yapıyorsunuz: 499 grup aracını ilk grup ortalamasıyla karşılaştırıyorsunuz. 154 tohumuyla, ilk grup ortalaması 1.18 ... alışılmadık derecede yüksektir (5'in grup büyüklüğü çok küçük olduğu için olabilir), bu nedenle diğerlerinin çoğunun önemli ölçüde olumsuz etkileri vardır. Modeli çalıştırarak düzeltin lm(y ~ rand.class - 1). Bu, tüm notlarınızın (+1) geçerliliğini değiştirmez. Daha da ikna edici olmak için, grup boyutlarını dengeleyin:rand.class <- cut(1:N, N.classes)
whuber

1
Tabii ki / /% 100 @ whuber'ın düşmesini bekledi ve kaçırdığım tamamen açık ve açık bir şey söyledi. Şimdi düzeltirim.
Matthew Drury

2

T istatistiği, etki büyüklüğünden ve örneklem büyüklüğünden etkilenir. Etki büyüklüğünün sıfır olmadığı, ancak örneklem büyüklüğünün anlamlı olması için yeterince büyük olmadığı görülebilir.

Sıfır ortalama için basit bir T testinde (bir özelliğin etkisi sıfır ise teste benzer) T istatistiğit=(x¯s)n

x¯s , etki büyüklüğünün örnek tahminidir, eğer küçükse, terimi kadar p değeri anlamlılığını göstermez .n

Sizin durumunuzda sıfırdan farklı etkiye sahip herhangi bir özellik performansı artıracaktır, ancak bu özelliğin p değerini önemli hale getirmek için yeterli veriye sahip olmayabilirsiniz.


4
Sıfır olmayan bir etkiye sahip herhangi bir özelliğin performansı artıracağını düşünmüyorum. Belki bu eğitim verisi için doğrudur, ama kesinlikle test verisi üzerinde değildir .
Matthew Drury

@MatthewDrury Nüfus ölçümlerini örneklerden çıkarmak için yöntemlere sahip olmadığımızı mı söylüyorsunuz?
Todd D

Hayır, ancak sahte özelliklerin bunu iyi yapabilme yeteneğinize müdahale edebileceği doğrudur.
Matthew Drury
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.