Bir değişken doğrusal regresyon modelinde önemli midir?


9

Örnek ve değişken gözlemlerle doğrusal bir regresyon modelim var ve bilmek istiyorum:

  1. Belirli bir değişkenin modele dahil kalacak kadar önemli olup olmadığı.
  2. Modele başka bir değişkenin (gözlemlerle) dahil edilmesi gerekip gerekmediği.

Hangi istatistikler bana yardımcı olabilir? Onları en verimli şekilde nasıl alabilirim?

Yanıtlar:


26

İstatistiksel anlamlılık, bir değişkenin modele dahil edilip edilmeyeceğini belirlemek için genellikle iyi bir temel değildir. İstatistiksel testler, değişkenleri değil hipotezleri test etmek için tasarlanmıştır. Pek çok ders kitabının istatistiksel testleri kullanarak değişken seçimi tartıştığını biliyorum, ama bu genellikle kötü bir yaklaşım. Bunun bazı nedenleri için Harrell'in Regresyon Modelleme Stratejileri kitabına bakınız . Günümüzde, AIC'ye (veya benzer bir şeye) dayalı değişken seçim genellikle tercih edilmektedir.


Aslında, hatıralarımın en iyisi olarak Harrell, AIC kullanımını şiddetle tavsiye etmiyor. Çapraz doğrulamanın muhtemelen en güvenli yöntem olacağını düşünüyorum.
Tal Galili

1
AIC asimptotik olarak CV'ye eşdeğerdir. Stats.stackexchange.com/questions/577/… adresindeki yanıtlara bakın . Bu cevabı yazmadan önce Harrell'i kontrol ettim ve AIC'nin cesaretini görmedim. AIC veya başka bir yöntemle değişken seçiminden sonra önem testi hakkında uyarır.
Rob Hyndman

@Tal: Belki de RMS kitabı yerine makalelerinden birinden, Harrell'in birçok modelden oluşan bir havuz arasından seçim yapmak için AIC kullanımına itiraz ettiğini hatırlıyorum . Onun amacı, bir anda bir değişken eklemeniz ve iki modeli metodik olarak karşılaştırmanız veya benzer bir strateji kullanmanız gerektiğiydi. (Açıkça söylemek gerekirse, bu
Rob'ın

Hızlı bir arama yaparken, Harrell'in "P-değerleri, R-kare, kısmi R-kare, AIC, BIC, regresyon katsayıları veya Mallows Cp temelinde model seçimi yapmaya dikkat edin" yazdığını buldum. 12/14/08 tarihinde, [R] LRM işlevinden katsayılar için p-değerleri elde etme (paket Tasarımı) - düz metin adlı bir posta listesine yazdı. Sanırım anlamını yanlış anladım.
Tal Galili

2
@Tal, @Rob: Bu dizide "Hiyerarşi ilkesini kullandığınızdan emin olun" diyor. Belki de ilgi çekici, medstats'tan bu tartışma (Harrell'in yanıtı için aşağı kaydırın): groups.google.com/group/medstats/browse_thread/thread/…
ars

4

Rob'un ikinci yorumu. Giderek daha fazla tercih edilen bir alternatif, tüm değişkenlerinizi dahil etmek ve 0'a doğru küçültmektir. Bkz. Tibshirani, R. (1996). Kement yoluyla regresyon büzülmesi ve seçimi.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
Bugünlerde "giderek daha çok tercih edilen" olanı ölçmenin bir yolu var mı?
Tal Galili

Büzülme yaklaşımının yakın zamanda uygulanan istatistik makalelerinde * .IC yaklaşımından daha fazla kullanıldığı anlamında birçok alanda bilimsel olarak daha doğru kabul edildiğini düşünüyorum. Bu kesin-en az taktik- teorik bir fikir birliği göstermektedir.
user603

1
@ user603 - büzülme yaklaşımı ile potansiyel olarak büyük hesaplama avantajına da sahipsiniz. Aramaya gerek yok2pmodeller
probabilityislogic

3

Bölüm 1 için, F testi arıyorsunuz . Her modele uygun kalan karelerin toplamını hesaplayın ve bir F dağılımından veya kendi oluşturduğunuz başka bir boş dağıtımdan p değerleri bulmak için kullanabileceğiniz bir F istatistiği hesaplayın.


1

Rob'un cevabı için bir oy daha.

"Göreceli önem" literatüründe bazı ilginç fikirler de vardır. Bu çalışma, bir takım aday öngörücülerin her biri ile ne kadar önem ilişkilendirildiğini belirlemeye yönelik yöntemler geliştirmektedir. Bayes ve Frequentist yöntemler vardır. Alıntı ve kod için R'deki "relaimpo" paketini kontrol edin.


1

Rob'un cevabını da seviyorum. Ve R yerine SAS kullanırsanız, PROC GLMELECT'i PROC GLM ile yapılacak modeller için kullanabilirsiniz, ancak diğer bazı modellerde de iyi çalışır. Görmek

Flom ve Cassell "Adım Adım Durdurma: Adım Adım Seçim Yöntemleri Neden Kötü ve Ne Kullanmalısınız?" Çeşitli gruplarda sunuldu, en son, NESUG 2009

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.