Doğrusal regresyon için öngörücülerin en iyi alt kümesini hesaplama


9

uygun öngörücülerle çok değişkenli doğrusal regresyonda öngörücülerin seçimi için, tüm alt kümelerini açıkça test etmeden öngörücülerin 'optimal' alt kümesini bulmak için hangi yöntemler mevcuttur ? 'Uygulamalı Hayatta Kalma Analizi'nde Hosmer & Lemeshow, Kuk'un yöntemine atıfta bulunuyor, ancak orijinal kağıdı bulamıyorum. Herkes bu yöntemi veya daha da iyisi, daha modern bir tekniği tanımlayabilir mi? Normal dağıtılmış hatalar kabul edilebilir.p2p


1
Aşağıdaki makaleye mi başvuruyorsunuz? Kuk, AYC (1984) Tüm altkümeler, orantılı bir tehlike modelinde gerilemektedir. Biometrika, 71, 587-592
chl

Evet kesinlikle. Sanırım o kağıdı bir şekilde kazmak zorunda kalacağım. Ancak eski görünüyor.
shabbychef

2
Bu arada Tibshirani'den (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9'dan , cox modelinde değişken seçim için kement yöntemi bulun . HTH
chl

1
ve bu daha yeni olan ( penalizedR paketiyle yakından bağlantılı ), j.mp/cooIT3 . Belki de bu, j.mp/bkDQUj . Şerefe
chl

Yanıtlar:


12

Kuk'un yöntemini hiç duymadım, ama bugünlerde sıcak konu L1 minimizasyonu. Bunun mantığı, regresyon katsayılarının mutlak değerinde bir ceza terimi kullanırsanız, önemsiz olanların sıfıra gitmesidir.

Bu tekniklerin bazı komik isimleri var: Kement, LARS, Dantzig seçici. Makaleleri okuyabilirsiniz, ancak başlamak için iyi bir yer İstatistiksel Öğrenme Unsurları , Bölüm 3'tür.


2
BTW, cezalandırılmış R paketi ( j.mp/bdQ0Rp ), Genelleştirilmiş Doğrusal ve Cox modelleri için l1 / l2 ceza tahmini içerir.
chl

Matlab topraklarında sıkışıp
kaldım

LARS harika, BTW. çok güzel şeyler. nasıl Cox Proportional Hazards modeli çerçevesinde sıkıştırabilir emin değilim, ...
shabbychef

2
Glmnet yazılımının bir lasso'd Cox PH modeli var: cran.r-project.org/web/packages/glmnet/index.html bir MATLAB sürümü de var (bir cox modeli olsa da emin değilim): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne

3

Bu çok büyük bir konu. Daha önce de belirtildiği gibi, Hastie, Tibshirani ve Friedman İstatistiksel Öğrenme Unsurlarının Ch3'ünde iyi bir giriş sunar.

Birkaç puan. 1) "En iyi" veya "en uygun" ile ne demek istiyorsun? Bir anlamda en iyi olan, diğerinde en iyi olmayabilir. İki ortak kriter, tahmin doğruluğu (sonuç değişkenini tahmin etme) ve katsayıların yansız tahmin edicilerinin üretilmesidir. Kement ve Sırt Regresyonu gibi bazı yöntemler kaçınılmaz olarak yanlı katsayı tahmin edicileri üretir.

2) "En iyi altkümeler" ifadesi iki ayrı anlamda kullanılabilir. Genel olarak, bazı model oluşturma kriterlerini optimize eden tüm öngörücüler arasındaki en iyi alt kümeyi ifade eder. Daha spesifik olarak, orta (~ 50) sayıdaki doğrusal kestirimci (Bu Sıçrama ve Sınırlarla Regresyonlar) arasındaki altkümeyi bulmak için Furnival ve Wilson'ın etkin algoritmasına atıfta bulunabilir. 499-51)

http://www.jstor.org/stable/1267601


1) evet, soru biraz belirsiz; Bahsettiğiniz gibi, birçok 'optimal' tanımı vardır: bilgi kriteri, çapraz doğrulama, vb. yoluyla. Soruna gördüğüm sezgisel yaklaşımların çoğu, adım adım öngörücü toplama / çıkarma ile ilerler: tek geçişli toplama veya çıkarma, vb. Bununla birlikte, Hosmer ve Lemeshow bu yöntemi (Lawless & Singhal tarafından yapılan bir çalışma çeşidi), bir şekilde 'sihirli bir şekilde' bir MLR'nin tek bir hesaplamasıyla (modulo diğer bazı şeyler) öngörücüler seçer. Bu yöntem hakkında çok merak ediyorum ...
shabbychef

0

Öncelikle bir tarama aracı olarak En İyi Altkümeler Yaklaşımı'nı kullandığımı öğrendiğimde, aşamalı seçim prosedürleri nihayet hangi modellerin en iyi alt küme modelleri olabileceğine karar vermenize yardımcı olabilir (şu anda bu modellerin sayısı işlemek için oldukça azdır). Modellerden biri model koşullarını karşılıyorsa, verilerdeki eğilimi özetlemek için iyi bir iş çıkarıyorsa ve en önemlisi araştırma sorunuzu cevaplamanıza izin veriyorsa, işinizi tebrik ederiz.


1
Sanırım bunu yanlış anlıyor olabilirsiniz. En iyi alt kümeler adım adım hesaplamaya göre çok daha pahalıdır, ancak mutlaka kademeli olarak her şeyi yakalar, bu nedenle sonraki en iyi alt kümeleri taramak için adım adım kullanırsınız. FWIW, cevabımda tartıştığım nedenlerden dolayı bu stratejilerin saf kullanımına katılmıyorum: otomatik model seçimi için algoritmalar .
gung - Monica'yı eski
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.