Birçok bağımsız değişkenden önemli prediktörlerin tespit edilmesi

31

Üst üste binmeyen iki popülasyonun veri setinde (hastalar ve sağlıklı, toplam $n=60$ ) bulmak istiyorum ( üzerinden bağımsız değişkenler) sürekli bir bağımlı değişken için önemli yordayıcılar. Prediktörler arasındaki korelasyon mevcuttur. Öngörülerden herhangi birinin "gerçekte" bağımlı değişkenle ilişkili olup olmadığını öğrenmekle ilgileniyorum (bağımlı değişkeni mümkün olduğu kadar önceden tahmin etmek yerine). Muhtemel sayısız yaklaşımla bunaldım, hangi yaklaşımın en çok tavsiye edildiğini sormak isterim. $300$

Anladığım kadarıyla adım adım öngörücülerin dahil edilmesi ya da dışlanması önerilmemektedir.
Örneğin, her tahmin için ayrı ayrı bir lineer regresyon yapın ve FDR (muhtemelen çok muhafazakar?) Kullanarak çoklu karşılaştırma için p-değerlerini düzeltin
Temel bileşen regresyon: bireysel tahmincilerin yordayıcı gücü hakkında değil, sadece bileşenler hakkında söyleyemeyeceğim gibi yorumlaması zor.
başka bir önerin var mı?

— jokel
kaynak

Bu tür şeyleri yapmak için L1 düzenli regresyon kullanan insanlar duydum. Ama uygun bir cevap yazacak kadar bilgim yok ...

— King

2

En iyi önerileri vermek için, "önemli öngörücüleri" belirledikten sonra nasıl devam edeceğinizi bilmemize yardımcı olacaktır. Sonucu mümkün olduğu kadar tam olarak tahmin etmeye mi çalışıyorsunuz ; Bir bulmak cimri onu (tahmin etmek yolunu örneğin etmek kadar bir dizi kullanarak k verimli bunu yapacağız yordayıcılarını; açıklamak ? "gerçekte" sonucunu neyin sebep;? ya da başka bir şey de, büyük veri seti nasıl

— rolando2

@rolando: Yorumunuz için teşekkürler! Soruyu güncelledim: toplam gözlem sayım n = 60 konu. Amacım bağımlı değişkeni mümkün olduğunca doğru tahmin etmek değil, “gerçeklikte” sonucun neye neden olduğunu açıklamaktır (= daha sonraki çalışmalarda / veri setlerinde doğrulanabilecek değişkenler arasındaki ilişkiyi bulma umuduyla)

— jokel

Ayrıca bazı sahte verileri içeren bir takip sorusu gönderdim. Tüm ipuçları için çok minnettar olurum. stats.stackexchange.com/questions/34859/…

— jokel

30

Kement düzenlileştirme ile bir glm denemeyi tavsiye ederim . Bu, modele değişken sayısı için bir ceza ekler ve ceza miktarını artırdıkça, modeldeki değişken sayısı da düşer.

Ceza parametresinin değerini seçmek için çapraz doğrulama kullanmalısınız. Eğer R varsa, glmnet paketini kullanmanızı öneririm . alpha=1Kement regresyonu ve alpha=0sırt regresyonu için kullanın . 0 ile 1 arasında bir değer ayarlamak, aynı zamanda elastik ağ olarak da bilinen kement ve sırt cezalarının bir kombinasyonunu kullanacaktır.

— Zach
kaynak

4

Zach ile aynı fikirdeyim. David Cassell ve ben bu konuda bir yazı yazdık, SAS'a yoğunlaştık ama tamamen değil. Bu edilir kademeli Durdurma .

— Peter Flom - Eski Monica

1

Sanırım sırt için 0, kement için de 1

— Kral,

1

@Zach: İpuçları için teşekkürler. Tekil tahmincilerin önemini yargılamama izin verecek bir test istatistiği elde etmenin bir yolu var mı? Sonunda "belirleyici X, bağımlı Y değişkeniyle önemli ölçüde ilişkilidir" diyebilmek istiyorum.

— şakacı

2

CI'lerle ilgili olarak, LASSO'yu uygulayan başka bir R paketinin kılavuzundan ( cran.r-project.org/web/packages/penalized/vignettes/… , sayfa 18): "Standart regresyon hatalarını istemek çok doğal bir sorudur katsayılar veya diğer tahmini miktarlar.Prensipte bu tür standart hatalar, örneğin önyükleme şeridi kullanılarak kolayca hesaplanabilir .. Yine de, bu paket kasıtlı olarak bunları sağlamaz .. Bunun nedeni, standart hataların ortaya çıkması gibi kuvvetli bir şekilde tahmin edilen tahminler için çok anlamlı olmamasıdır. cezalandırılmış tahmin yöntemlerinden

— miura,

2

@miura Son zamanlarda, orijinal Kement yazarlarının da yazdığı, bunun için bir test istatistiği yapıldı: kağıt ve slaytlar (okunması daha kolay)

— Cam.Davidson.Pilon

23

Zach'in cevabını genişletmek için (+1), doğrusal regresyonda LASSO yöntemini kullanırsanız, toplamı ikinci dereceden bir işlevi ve mutlak bir değer işlevini en aza indirmeye çalışıyorsunuzdur.

min_{β} (Y - X β)^{T} (Y - X β) + \underset{ben}{Σ} | β_{ben} |

$\min_{\beta} \; \; (Y-X\beta)^{T}(Y-X\beta) + \sum_i |\beta_i|$

$\beta$ LASSO amaç işlevi

Asgari kesişme eğrisi üzerinde, burada kuadratik ve kare şeklindeki eğrinin kontur eğrileri ile çizilen yatıyor:

LASSO'nun kontur eğrileri

Asgari eksenlerden birinin üzerinde olduğunu görebilirsiniz, dolayısıyla bu değişkeni regresyondan kaldırmıştır.

$L1$

— Cam.Davidson.Pilon
kaynak

8

(+1) ama blog yazısı için bu gerçekten iyi. Cevabınızı burada biraz genişletmek olsaydı iyi olurdu, çünkü bu mevcut bilginin kalma olasılığını artıracak.

— richiemorrisroe

2

Kaç prediktörün önemli olabileceği konusundaki inancınız nedir? Birçoğunun tamamen sıfır etkisine sahip olması veya her şeyin sonucu etkilemesi muhtemel mi, bazı değişkenler diğerlerinden sadece daha az mı?

Ve öngörü durumu ile ilgili sağlık durumu nasıl?

Yalnızca birkaç değişkenin önemli olduğuna inanıyorsanız, daha önce (örneğin R'nin spikeSlabGAM paketinde) spike ve slab veya L1'i deneyebilirsiniz. Tüm tahmincilerin sonucu etkilediğini düşünüyorsanız, şanssız olabilirsiniz.

Ve genel olarak, gözlemsel verilerden nedensel çıkarımla ilgili tüm uyarılar geçerlidir.

— scellus
kaynak

2

Ne yaparsanız yapın, yordayıcıların önem sırasındaki önyükleme güven aralıklarını, veri kümenizle gerçekten yapabileceğinizi göstermek önemlidir. Metotlardan herhangi birinin "gerçek" tahmincileri güvenilir bir şekilde bulabileceğinden şüpheliyim.

— Frank Harrell
kaynak

1

Lasso regresyonunun ne zaman çok iyi performans gösterdiğini hatırlıyorum. $n \leq p$ , ama emin değilim. Bu durumda Elastic Net değişken seçiminde daha uygun olduğunu düşünüyorum.

— Andy Lu
kaynak

Bu n << p bu orijinal elastik net kağıdı görünce daha spesifik olarak doğrudur stanford.edu/~hastie/Papers/...

— Cam.Davidson.Pilon

1

N <p olduğunda, LASSO en fazla n değişkeni seçer.

— miura