ayarında regresyon : Düzenleme yöntemi nasıl seçilir (Kement, PLS, PCR, sırt)?


15

Ben gitmek için olup olmadığını görmek çalışıyorum sırt regresyon , kement , temel bileşenler regresyon (PCR) veya Kısmi En Küçük Kareler değişkenler / özellikler (çok sayıda olduğu yerde bir durumda (PLS) p ) ve numunelerin daha az sayıda ( ) ve hedefim tahmin.n<p

Bu benim anlayışım:

  1. Ridge regresyonu regresyon katsayılarını daraltır, ancak tüm katsayılarıyapmadan kullanır.0

  2. LASSO da katsayıları daraltır, fakat aynı zamanda yapar0, yani değişken seçimi de yapabilir.

  3. Temel bileşen regresyonu bileşenleri keser, böylece n'denp küçük olur ; p - n bileşenlerini atar .npn

  4. Kısmi en küçük kare ayrıca regresyon için bir dizi doğrusal kombinasyon oluşturur, ancak PCR'den farklı olarak boyutsallık azalması için y ( ek olarak X) kullanır . PCR ve PLS regresyonu arasındaki temel pratik fark, PCR'nin aynı tahmin hatasını elde etmek için genellikle PLS'den daha fazla bileşene ihtiyaç duymasıdır ( buraya bakınız ).

Aşağıdaki kukla verileri düşünün (çalışmaya çalıştığım gerçek veriler benzer):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Dört yöntemin uygulanması:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

Verilerin en iyi açıklaması:

  1. p>n , çoğu zaman p>10n ;

  2. Değişkenler ( X ve Y ) farklı derecelerle birbirleriyle ilişkilidir .

Sorum şu: bu durum için hangi strateji en iyi olabilir? Neden?


6
Elimde bir cevabım yok, ancak İstatistiksel Öğrenmenin Unsurları'nın 18. bölümü bu konuya ayrılmıştır ve bence bahsettiğiniz tüm teknikleri kapsar.
shadowtalker


@ ssdecontrol Gönderdiğiniz kitap için teşekkür ederim. Çok yararlı
Christina

Yanıtlar:


30

Bence sorunuzun tek bir cevabı yok - bu birçok duruma, verilere ve ne yapmaya çalıştığınıza bağlı. Bazı değişiklikler hedefe ulaşmak için değiştirilebilir veya değiştirilmelidir. Ancak, aşağıdaki genel tartışma yardımcı olabilir.

Daha gelişmiş yöntemlere geçmeden önce, temel modelin tartışmasına geçelim: En Küçük Kareler (LS) regresyonu . Tam modeldeki parametrelerin en küçük kareler tahmininin tatmin edici olmamasının iki nedeni vardır:

  1. Tahmin kalitesi: En küçük kareler tahminlerinde genellikle küçük bir sapma vardır, ancak yüksek bir sapma vardır. Tahmin kalitesi bazen regresyon katsayılarının büzülmesi veya bazı katsayıların sıfıra eşitlenmesi ile iyileştirilebilir. Bu şekilde yanlılık artar, ancak tahminin varyansı önemli ölçüde azalır ve bu da genel olarak geliştirilmiş bir tahmine yol açar. Sapma ve varyans arasındaki bu değişme, ortalama kare hatasının (MSE) ayrıştırılmasıyla kolayca görülebilir . Daha küçük bir MSE, yeni değerlerin daha iyi tahmin edilmesine yol açar.

  2. Yorumlanabilirlik : Çok sayıda tahmin değişkeni mevcutsa, en büyük etkisi olanları belirlemek ve tahminle ilgili olmayanları sıfıra ayarlamak mantıklıdır. Bu nedenle, sadece bazı ayrıntıları açıklayacak değişkenleri ortadan kaldırıyoruz, ancak yanıt değişkeninin büyük açıklamasına izin veren değişkenleri koruyoruz.

Böylece değişken seçim yöntemleri ortaya çıkmaktadır. Değişken seçimi ile tüm girdi değişkenlerinin sadece bir alt kümesi kullanılır, gerisi modelden çıkarılır. En alt küme regresyon fi boyutu alt kümesini NDS her biri için k { 0 , 1 , . . . , p } en küçük RSS'yi verir. Etkili bir algoritma, 30 veya 40'a kadar regresör değişkenini işleyebilen Sıçramalar ve Sınırlar algoritmasıdır . 40'tan büyük veri setleri ilekk{0,1,...,p}304040giriş değişkenleri tüm olası altkümeler üzerinden yapılan bir aramayı olanaksız hale getirir. Bu nedenle İleriye doğru kademeli seçim ve Geriye doğru kademeli seçim yararlıdır. Geri seçim sadece iyi tanımlanmış bir modele sahip olmak için olduğunda kullanılabilir . P çok yüksek olduğunda bu yöntemlerin hesaplama etkinliği sorgulanabilir .n>pp

Birçok durumda, çoğunlukla sizin ilişkiniz olan (sizin durumunuzda olduğu gibi) çok sayıda girdimiz vardır (sizinki gibi). Yüksek derecede korelasyonlu regresörler durumunda, OLSβzk,k=1,2,...,qxj

Yöntemler, doğrusal kombinasyonların nasıl oluşturulduğuna bağlıdır. Ana bileşenler regresyonu (PCR) , orijinal verilerin ana bileşenler adı verilen ilişkisiz yeni bir kümeye dönüştürülmesini arar .

Kısmi En Küçük Kareler (PLS) regresyonu - Bu teknik aynı zamanda regresyon için girişler doğrusal kombinasyonları kümesi oluşturur, fakat temel bileşenler regresyonu farklı kullandığı ek olarak X bu yapı için. Her ikisinin deyXyXβγγqpXyy

λ0λ

ββ

Xpq

YiL1 ve L2 arasındaki fark, L2'nin ağırlıkların karesinin toplamı, L1 ise sadece ağırlıkların toplamıdır. L1 normu, seyrek katsayılar üretme eğilimindedir ve Yerleşik özellik seçimine sahiptir . L1-normunun analitik bir çözümü yoktur, ancak L2-normundadır. Bu, L2-norm çözeltilerinin hesaplamalı olarak verimli bir şekilde hesaplanmasını sağlar. L2 normunun kendine özgü çözümleri vardır, L1 normunda ise yoktur.

s0s

pN

Temel bileşenler analizi , bir veri kümesinde büyük farklılıklar gösteren özelliklerin doğrusal kombinasyonlarını bulmak için etkili bir yöntemdir. Ancak burada aradığımız, hem yüksek varyans hem de sonuç ile önemli korelasyon içeren doğrusal kombinasyonlardır. Bu nedenle, temel bileşen analizini, sonuç denetimli temel bileşenlerle yüksek korelasyona sahip özelliklerin doğrusal kombinasyonlarını bulmaya teşvik etmek istiyoruz (bkz. Sayfa 678, Algoritma 18.1, İstatistiksel Öğrenme Unsurları ).

Kısmen en az gürültülü özellikleri aşağı kareler, ama onları atmaz; sonuç olarak çok sayıda gürültülü özellik tahminleri kirletebilir. Eşikli PLS, denetlenen ana bileşenlerin gürültülü bir versiyonu olarak görülebilir ve bu nedenle uygulamada da çalışmasını beklemeyebiliriz. Denetlenen ana bileşenler , Eşik PLS'den daha düşük test hataları verebilir . Bununla birlikte, her zaman sadece az sayıda özellik içeren seyrek bir model üretmez.

p


1
Bias2+Variance

2
"L2-normunun benzersiz çözümleri var, L1-normunda değil" dediğinde ne demek istiyorsun? Kement hedefi dışbükey ...
Andrew M
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.