Lasso tahminlerini neden, Lasso tarafından tanımlanan değişkenler alt kümesinde OLS tahminleri üzerinden kullanıyorsunuz?


26

Kement regresyonu için en iyi çözümün (örneğin minimum test hatası) özelliklerini varsayalım. böylece \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ sağ) .

L(β)=(Xβ-y)'(Xβ-y)+λβ1,
β l bir s s o = ( β l bir s s o 1 , β L bir s ler o 2 , . . . , β s lerkβ^lbirssO=(β^1lbirssO,β^2lbirssO,...,β^klbirssO,0,..0,0)

Bunu biliyoruz (β^1lbirssO,β^2lbirssO,...,β^klbirssO) a ise \ left (\ beta_1, \ beta_2, ..., \ beta_k \ right) önyargılı tahmin, peki(β1,β2,...,βk) neden hala daha 'makul' olmak yerine nihai çözüm olarak neden β^lbirssO kullanıyoruz? β^new=(β^1:knew,0,...,0) , burada β^1:knew , L ^ {new} kısmi modelinden alınan LS tahminidir (\ beta_ {1: k}) = (X_ {1: k} \ beta-y) '(X_ {1: k } \ beta-y)Lnew(β1:k)=(X1:kβ-y)'(X1:kβ-y) . ( X1:k , seçilen k'ye karşılık gelen X sütununu belirtir ).Xk

Kısaca, neden sadece değişken seçimi için (ve seçilen özelliklerin tahminini OLS'a bırakmak) yerine hem özellik seçimi hem de parametre tahmini için Lasso'yu kullanıyoruz?

(Ayrıca, 'Kement'in en fazla n özelliği seçebilmesi' ne demektir ? n örnek büyüklüğüdür.)


1
Bu çok iyi bir soru. Biri sizin yönteminizle denerse, sonuçların standart Kement'ten ne kadar farklı olacağını görmek için birkaç simülasyonu denediniz mi?
Placidia

3
LASSO'da "Büzülme" amacını anladınız mı?
Michael M

6
Buradaki fikir, katsayı tahminlerini kesin olarak küçültmek. Çünkü en büyüğünü seçtiniz. En küçük kareler tahminleri, önceden özellik seçimi yaptığınızda artık tarafsız değildir.
Scortchi - Eski Monica

2
"Büzülme yöntemleri hangi problemi çözer?" stats.stackexchange.com/questions/20295/…
DL Dahly

2
Açık olmak gerekirse: @ Sccorchi'nin yanlış olduğunu söylememek, ancak özellik seçimini tartışırken bu biraz gri bir alandır ve bence bu çok açık bir şekilde yapılması gereken önemli bir teknik nokta.
JohnA

Yanıtlar:


27

Değişken seçimi için LASSO'yu ve ardından OLS'yi kullanırken yanlış bir şey olduğuna inanmıyorum. " İstatistiksel Öğrenmenin Öğeleri " den (sf. 91)

... kement büzülme sıfıra doğru eğilmek üzere sıfır olmayan katsayı tahminleri neden olur ve genel olarak onlar tutarlı değildir [ Added Not: örnek boyutu büyüdükçe, katsayı tahminleri yakınsama yok, bu araçlar] . Bu önyargının azaltılmasına yönelik bir yaklaşım, sıfır olmayan katsayıların setini tanımlamak için kementin çalıştırılması ve daha sonra seçilen özellik setine sınırlandırılmamış bir lineer modelin yerleştirilmesidir. Seçilen set büyükse bu her zaman mümkün değildir. Alternatif olarak, sıfır olmayan kestiricilerin kümesini seçmek için kement kullanılabilir ve daha sonra kementi tekrar uygulayabilir, ancak ilk adımda yalnızca seçilen kestiricileri kullanarak kullanabilirsiniz. Bu rahat kement olarak bilinir(Meinshausen, 2007). Buradaki fikir, kement için başlangıç ​​ceza parametresini tahmin etmek için çapraz doğrulama kullanmak ve daha sonra yine seçilen kestirici grubuna uygulanan ikinci bir ceza parametresi için kullanmaktır. İkinci aşamadaki değişkenler gürültü değişkenlerinden daha az "rekabet" içerdiğinden, çapraz doğrulama [ceza parametresi] için daha küçük bir değer seçme eğiliminde olacaktır ve bu nedenle onların katsayıları ilk tahminde belirtilen değerlerden daha düşük olacaktır.λ

Ruhu rahatlatan kemente benzeyen bir başka makul yaklaşım, bir grup aday belirleyici değişkenini tanımlamak için kementin bir kez (ya da iki defa tandem halinde) kullanılmasıdır. Ardından , göz önünde bulundurulacak en iyi tahmin değişkenlerini seçmek için en iyi altkümeler regresyonu kullanın (bunun için "İstatistiksel Öğrenme Öğeleri" ne bakın). Bunun işe yaraması için, her zaman mümkün olmayacak olan yaklaşık 35 kişilik aday belirleyicileri grubunu daraltmanız gerekir. Aşırı uyumu önlemek için çapraz doğrulama veya AIC'yi bir kriter olarak kullanabilirsiniz.


Sorumun diğer bir kısmı da, 'Lasso en n özelliği seçebiliyor?' Bu durumda, seçilen özelliklerde OLS'nin en azından 'iyi' olacağını düşünüyorum, çünkü OLS 'BLUE'dur (çoğunlukla önyargılı olduğundan kesinlikle MAVİ değil). Lasso'nun tam olarak doğru özellikleri seçtiği aşırı bir durumu düşünün, OLS'yi bu özellikler üzerine uygulamak, Lasso'nun tahmininden daha iyi olduğunu düşündüğüm gerçek modeli geri yükleyecektir.
yliueagle

2
Sorun şu ki, bu "aşırı durum" un ortaya çıkması pek olası değildir ve LASSO'nun tam olarak doğru özellikleri seçtiğini bilmenin bir yolu yoktur. LASSO çok fazla özellik seçerse, o zaman tam OLS modelinin LASSO tahminlerinden daha kötü performans gösterdiğini düşünüyorum. Benzer şekilde, çok fazla özellik varsa (örneğin, OLS aşırı yüklenir), sırt regresyonu OLS'den daha iyi performans gösterebilir.
Alex Williams

2
Ayrıca bkz. Web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , Bölüm 2.2'nin sonu: "[...] [...] kestiricilerin alt kümesine uyan en küçük kareler serbest tahminleri genişletme eğilimindedir Sıfırdan uzak: Sıfırdan tahmin edilemeyen kement tahminleri sıfıra doğru eğilimli olma eğilimindedir, bu nedenle sağ paneldeki parçalanma genellikle modelin tahmin hatasını iyileştirebilir. Bu iki aşamalı işlem aynı zamanda rahat kement olarak da bilinir (Meinshausen, 2007). ."
amip Reinstate Monica’nın

1
Meinshausen gazetesine baktım ve asıl alıntıda The Elements’ten alıntı yaptığınız gibi, iki ceza parametresi takmanızı önerir. +1
amip Reinstate Monica’nın

@AlexWilliams Ancak önceki paragrafta seçilen küme ile neyin küçük olduğu kaldırılan arasındaki korelasyon hakkında bir varsayım varsayımı yok mu?
Dimitriy V. Masterov

15

Amacınız optimum örneklem performansı (en yüksek R-karesi ile) ise, mevcut her değişken için sadece OLS kullanın. Bırakma değişkenleri R karesini azaltır.

Amacınız örneklemenin dışında iyi bir performanssa (bu genellikle daha önemli olan şeydir), önerilen stratejiniz iki aşırı yüklenme kaynağından muzdarip olacaktır:

  • Cevap değişkeni ile korelasyonlara dayalı değişkenlerin seçimi
  • OLS tahminleri

LASSO’nun amacı, iki aşırı yüklenme kaynağının üstesinden gelmek için parametre tahminlerini sıfıra çekmektir. Numune içi tahminler her zaman OLS'den daha kötü olacaktır, ancak ümit (cezalandırmanın gücüne bağlı olarak) numune dışı davranışlardan daha gerçekçi davranmaktır.

İlgili : Bu (muhtemelen) kullandığınız kement uygulanmasına bağlıdır. Değişken, Lars (en düşük açılı regresyon), için kolayca çalışır .p>np>n


2
(K belirleyicileri kement ile yakalandı ile yeniden tahmini OLS) "Leekasso" (her zaman 10 katsayılarını almak) Sorunun önerisi farklıdır
Afin

@Affine tamamen haklısın. Referansı kaldırdım.
Michael M

2
Makul Bu sesler, ancak Kement mucitleri aksi iddia ve aslında (OP tarafından önerilen) Kement tanımlanan alt kümesine OLS ile iki aşamalı prosedürü kullanarak tavsiye Alex'es cevap @ bakın.
amip, Reinstate Monica’nın

Bu cevabı beğendim çünkü aramadaki seçim önyargısından bahsediyor; Ek bir ceza olmalı gibi hissediyor. Sadece altküme seçim mekanizması olarak LASSO - hepsi bu mu? Öyleyse neden katsayılarını hiç yazdırmıyorsunuz?
Ben Ogorek

3

OP’lerin Lasso’nun neden en fazla n özelliği seçebileceği sorusu ile ilgili olarak :

XTXβ=(XTX)-1XTY

XTX


1
(XTX)-1
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.