Bir regresyon modelinde değişkenleri nasıl seçersiniz?


12

Değişken seçimine geleneksel yaklaşım, yeni bir yanıtı öngörmeye en çok katkıda bulunan değişkenleri bulmaktır. Son zamanlarda buna bir alternatif öğrendim. Bir tedavinin etkisini belirleyen değişkenlerin modellenmesinde - örneğin bir farmasötik klinik testinde olduğu gibi - değişkenin niteliksel olarak etkileşime girdiği söylenirdiğer değişkenleri sabit bırakarak, bu değişkende bir değişiklik olması tedavinin en etkili olduğu bir değişiklik yaratabilirse tedavi ile. Bu değişkenler her zaman etkinin güçlü prediktörleri değildir, ancak bireysel hastalar için tedaviye karar verirken bir doktor için önemli olabilir. Doktora tezinde Lacey Gunter, seçimi kalıtsal olarak etkileşen değişkenleri seçmek için, tahmine dayalı algoritmalar tarafından gözden kaçırılabilecek bir yöntem geliştirdi. Son zamanlarda bu yöntemleri lojistik regresyon ve Cox orantılı tehlike regresyon modelleri dahil olmak üzere diğer modellere genişletme konusunda çalıştım.

İki sorum var:

  1. Bu yeni yöntemlerin değeri hakkında ne düşünüyorsunuz?
  2. Geleneksel yöntemler söz konusu olduğunda hangi yaklaşımı tercih edersiniz? AIC, BIC, Mallows Cp, F değişkenleri adım adım, ileri ve geri girme veya bırakma kriterleri ...

Bununla ilgili ilk makale Gunter, L., Zhu, J ve Murphy, SA'da (2009) yayınlandı. Nitel etkileşimler için değişken seçim . İstatistiksel Metodoloji doi: 10, 1016 / j.stamet.2009.05.003.

Bir sonraki makale Gunter, L., Zhu, J. ve Murphy, SA'da (2011) yayınlandı. Ailevi hata oranını kontrol ederken kişiselleştirilmiş tıpta nitel etkileşimlerin değişken seçimi . Biyofarmasötik İstatistikler Dergisi 21, 1063-1078.

Bir sonraki, değişken seçim Gunter, L., Chernick, MR ve Sun, J. (2011) ile ilgili özel bir sayıda ortaya çıktı. Bir tedavi seçimi ile ilgili olarak regresyon değişken seçimi için basit bir yöntem . Pakistan İstatistik ve Yöneylem Araştırması Dergisi 7: 363-380.

Makaleleri derginin web sitelerinde bulabilirsiniz. Makaleyi satın almanız gerekebilir. Bu makaleler için pdf dosyaları olabilir. Lacey ve ben bu konuyla ilgili olarak bu yılın ilerleyen saatlerinde SpringerBrief olarak yayınlanacak bir monografı tamamladık.


11
Belki de takip etmiyorum - etki değişikliğinden şüphelenmek için a priori bir neden varsa , o zaman bu yeni yöntemler, örneğin, model seçimi için "aday" değişkenler listesindeki etkileşim terimlerini dahil etmekten nasıl farklıdır?
Makro

6
(1) Bu soruda bir veya daha fazla satır kaybolmuş gibi görünüyor. Sanırım "adım adım, ileri ve geri, ..." (2) Model tanımlama ve değişken seçimi burada kapsamlı olarak tartışılmıştır. Örneğin, + model + değişken + seçiminde arama yapmak bu noktada 145 iş parçacığı sunar. Bu aramayı daraltmak muhtemelen ikinci soruya cevap verecektir. (3) İlk soruya cevapları kolaylaştırmak için, bu araştırmaya bir bağlantı veya açık referanslar verebilir misiniz?
whuber

2
Bu, tedaviyle etkileşime giren bir değişkenin dahil edilmesi meselesidir. Fakat bu sadece basit bir etkileşim değil, niteliksel bir etkileşimdir. Etkileşim için iki satır paralel olmamalıdır. Niteliksel etkileşim için değişkenin tanımlandığı aralıktan geçmeleri gerekir. Dolayısıyla fikir, niteliksel olarak etkileşime giren bir değişken bulmaktır. Bu, uyumu veya tahmini artıran değişkenleri ve etkileşim terimlerini seçmekle farklıdır.
Michael R.Chernick

3
Cevap verme fırsatını aldığınız için teşekkürler, Michael. Belki getirmek için bir önemli nokta bu site olmasıdır değil bir tartışma sitesi, daha ziyade bir soru-cevap sitesi. Bununla birlikte, biraz farklı iletişim yöntemleri gelir. SSS bunu biraz ayrıntılı olarak ele almaktadır. Zaman zaman iş parçacığı biraz kaybolabilir, ancak bir şeylerin genel şeması ile biraz daha fazla deneyim kazandığında şaşırtıcı derecede nadirdir. Şerefe.
kardinal

6
Michael, evet, SE sistemi biraz alışmaya çalışıyor ve mükemmel değil. Ama mantıklı ve tutarlı. Hedeflediğimiz şeylerden biri de sürekli iyileştirmedir : liste sunucuları ve bülten panolarının aksine sorular (ve cevaplar) değiştirilebilir; bu bekleniyor. Sonuçta, bir ileti dizisinin yorum dizisine başvurmadan kendi başına duran tek, iyi ifade edilmiş, eksiksiz bir soru ile başlamasını isteriz; bir veya daha fazla iyi yazılmış, iyi atfedilen kanonik cevapla devam etmelidir. Bu ideali göz önünde bulundurarak, @ cardinal'in önerileri sizin için daha anlamlı olabilir.
whuber

Yanıtlar:


2
  1. Bkz. Gelman ve Hill, Regresyon ve Çok Düzeyli / Hiyerarşik Model Kullanarak Veri Analizi sayfa 69, model seçimi hakkında bir bölümleri vardır. Tamamen iyi olan soru tabanlı bir yaklaşım kullanıyor, ancak makalesinde modelde yaptıklarını neden dahil ettiğini gerekçelendirmesi gerekiyor. Dediğiniz gibi "Bu değişkenler her zaman etkinin güçlü birer öngörücüsü değildir, ancak bireysel hastalar için tedaviye karar verirken bir doktor için önemli olabilir." bu yordayıcıların neden dahil edilmesi gerektiğini haklı kıldığı sürece sorun olmaz. Şahsen benim için bu yöntemleri tercih ediyorum. İşte 2'ye cevabım geliyor.
  2. Adım adım, ileri ve geri sanırım kara kutular. Her üç modelden birini çalıştırdığınızda aynı öngörücülere ulaşmayacaksınız. Bu nedenle hangisini kullanacağım konusunda net bir cevap alamazdım. AIC veya BIC modelleri karşılaştırmak için kullanılabilir.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.