λgünlük( λ )Σben| βben|
Bu amaçla, göstermek için bazı ilişkili ve ilişkisiz veriler yarattım:
x_uncorr <- matrix(runif(30000), nrow=10000)
y_uncorr <- 1 + 2*x_uncorr[,1] - x_uncorr[,2] + .5*x_uncorr[,3]
sigma <- matrix(c( 1, -.5, 0,
-.5, 1, -.5,
0, -.5, 1), nrow=3, byrow=TRUE
)
x_corr <- x_uncorr %*% sqrtm(sigma)
y_corr <- y_uncorr <- 1 + 2*x_corr[,1] - x_corr[,2] + .5*x_corr[,3]
Verilerin ilişkilendirilmemiş x_uncorr
sütunları var
> round(cor(x_uncorr), 2)
[,1] [,2] [,3]
[1,] 1.00 0.01 0.00
[2,] 0.01 1.00 -0.01
[3,] 0.00 -0.01 1.00
x_corr
sütunlar arasında önceden ayarlanmış bir korelasyona sahipken
> round(cor(x_corr), 2)
[,1] [,2] [,3]
[1,] 1.00 -0.49 0.00
[2,] -0.49 1.00 -0.51
[3,] 0.00 -0.51 1.00
Şimdi bu iki durum için de kement çizimlerine bakalım. Önce ilintisiz veriler
gnet_uncorr <- glmnet(x_uncorr, y_uncorr)
plot(gnet_uncorr)
Birkaç özellik öne çıkıyor
- Öngörücüler, gerçek doğrusal regresyon katsayısı büyüklüklerine göre modele girerler.
- Σben| βben|Σben| βben|
- Modele yeni bir öngörücü girdiğinde, modelde bulunan tüm öngörücülerin katsayı yolunun eğimini belirleyici bir şekilde etkiler. Örneğin, ikinci öngörücü modele girdiğinde, ilk katsayı yolunun eğimi yarıya indirilir. Üçüncü tahminci modele girdiğinde, katsayı yolunun eğimi orijinal değerinin üçte biridir.
Bunların hepsi ilişkisiz verilerle kement regresyonu için geçerli olan genel olgulardır ve hepsi elle kanıtlanabilir (iyi egzersiz!) Veya literatürde bulunabilir.
Şimdi ilişkili verileri yapalım
gnet_corr <- glmnet(x_corr, y_corr)
plot(gnet_corr)
İlişkisiz durumla karşılaştırarak bu çizimden bazı şeyleri okuyabilirsiniz
- Birinci ve ikinci öngörücü yollar, ilişkili olsalar bile, üçüncü öngörücü modele girene kadar ilişkisiz durumla aynı yapıya sahiptir. Bu, iki öngörücü vakanın özel bir özelliğidir, eğer ilgi varsa başka bir cevapta açıklayabilirim, mevcut tartışmanın beni biraz daha uzağa götürür.
- ∑ | βben|
Şimdi araç veri setindeki planınıza bakalım ve bazı ilginç şeyleri okuyalım (planınızı burada yeniden oluşturdum, böylece bu tartışma daha kolay okunabilir):
Uyarı kelimesi : Eğrilerin standart katsayıları gösterdiği varsayımına dayanan aşağıdaki analizi yazdım, bu örnekte göstermediler. Standartlaştırılmamış katsayılar boyutsuz değildir ve karşılaştırılabilir değildir, bu nedenle tahminsel önem açısından bunlardan hiçbir sonuç çıkarılamaz. Aşağıdaki analizin geçerli olması için, çizimin standartlaştırılmış katsayılar olduğunu varsayınız ve lütfen standartlaştırılmış katsayı yollarında kendi analizinizi yapınız.
- Dediğiniz gibi,
wt
yordayıcı çok önemli görünüyor. Önce modele girer ve nihai değerine yavaş ve istikrarlı bir şekilde iner. Biraz inişli çıkışlı bir sürüş yapan birkaç korelasyonu var, am
özellikle girdiğinde sert bir etkiye sahip gibi görünüyor.
am
aynı zamanda önemlidir. Daha sonra gelir ve şiddetli bir wt
eğimi etkilediğinden, ile ilişkilidir wt
. Aynı zamanda carb
ve ile ilişkilidir qsec
, çünkü bunlar girdiğinde eğimin öngörülebilir yumuşamasını görmüyoruz. Bu dört değişken olsa girdikten sonra, do it sonunda tüm belirleyicileri ile ilintisiz gibi görünüyor, bu yüzden güzel ilintisiz desen bakın.
- Bir şey x ekseni üzerinde 2.25 civarında girer, ancak yolunun kendisi algılanamaz, ancak
cyl
ve wt
parametrelerine olan etkisi ile algılayabilirsiniz .
cyl
oldukça etkileyici. İkinciye girer, bu nedenle küçük modeller için önemlidir. Diğer değişkenler ve özellikle am
girildikten sonra, artık o kadar önemli değil ve eğilimi tersine dönüyor, sonunda hepsi kaldırıldı. Etkisi cyl
, sürecin sonunda giren değişkenler tarafından tamamen yakalanabilir gibi görünüyor . Kullanmanın daha uygun olup olmadığı cyl
veya tamamlayıcı değişkenler grubu gerçekten sapma-varyans dengesine bağlıdır. Grubun son modelinize sahip olması varyansını önemli ölçüde artıracaktır, ancak daha düşük önyargı bunu telafi edebilir!
Bu, bu grafiklerden bilgi okumayı nasıl öğrendiğime dair küçük bir giriş. Bence tonlarca eğlenceli!
Harika bir analiz için teşekkürler. Basit bir ifadeyle, wt, am ve cyl'nin mpg'nin en önemli 3 öngörücüsü olduğunu söyleyebilir misiniz? Ayrıca, tahmin için bir model oluşturmak istiyorsanız, şu şekle dayanarak hangilerini dahil edeceksiniz: wt, am ve cyl? Ya da başka bir kombinasyon. Ayrıca, analiz için en iyi lambda'ya ihtiyacınız yok gibi görünüyor. Sırt regresyonunda olduğu gibi önemli değil mi?
Ben dava için söyleyebilirim wt
ve am
açık kesim, onlar önemlidir. cyl
çok daha incedir, küçük bir modelde önemlidir, ancak büyük bir modelle hiç ilgili değildir.
Sadece şekle dayanarak neyin dahil edileceğine dair bir belirleme yapamayacağım, bu gerçekten yaptığınız şeyin bağlamına cevaplanmalıdır. Eğer üç yordayıcı modeli istiyorsanız, o zaman wt
, am
ve cyl
iyi bir seçim iseniz , şeylerin büyük şemasında alakalı oldukları ve küçük bir modelde makul etki boyutlarına sahip olması gerektiğini söyleyebilirsiniz . Bu, küçük bir üç tahmin modelini arzulamak için bazı dış nedenlerin olduğu varsayımına dayanmaktadır.
Doğru, bu tür bir analiz tüm lambda spektrumuna bakar ve bir dizi model karmaşıklığı üzerindeki ilişkileri ortadan kaldırmanıza izin verir. Bununla birlikte, son bir model için bence en uygun lambda'yı ayarlamak çok önemlidir. Diğer kısıtlamaların yokluğunda, bu spektrum boyunca en öngörülü lambda'nın nerede olduğunu bulmak için çapraz doğrulamayı kesinlikle kullanırım ve daha sonra bu lambda'yı son model ve son analiz için kullanırım.
λ
Diğer yönde, bazen bir modelin ne kadar karmaşık olabileceği konusunda dış kısıtlamalar vardır (uygulama maliyetleri, eski sistemler, açıklayıcı minimalizm, iş yorumlanabilirliği, estetik patrimony) ve bu tür inceleme verilerinizin şeklini anlamanıza gerçekten yardımcı olabilir ve daha küçük ve en uygun modeli seçerek yaptığınız ödünleşmeler.
-1
içindeglmnet(as.matrix(mtcars[-1]), mtcars[,1])
.