P> n ise, kement en fazla n değişken seçer


13

Elastik ağ için motivasyonlardan biri LASSO'nun aşağıdaki sınırlamasıydı:

Gelen durumda, çünkü dışbükey optimizasyon problemine doğasının kement en fazla seçer n değişkenler ondan önce doymuş bileşikler,. Bu, değişken seçim yöntemi için sınırlayıcı bir özellik gibi görünmektedir. Ayrıca, katsayıların L1-normuna bağlı belirli bir değerden daha küçük olmadığı sürece, kement iyi tanımlanmamıştır.p>n

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

LASSO'nun kuadratik bir programlama problemi olduğunu anlıyorum, ancak LARS veya eleman bazında gradyan inişi ile de çözülebilir. Ama eğer bu algoritmaları ben bir sorunla karşılaşırsanız nerede anlamıyorum nereye belirleyicileri sayısıdır ve örnek boyutudur. Ve bu problem neden açıkça aşan değişkenlerine yükselttiğim elastik ağ kullanılarak çözüldü .p n p + n pp>npnp+np


2
Kement kullanımı p <= n ile sınırlandırırsa, bu neden bir erdem yerine bir dezavantajdır. aşırı sığdırma p = n olduğunda ortaya çıkan ciddi bir sorundur. P = n'ye sahip olan model doymuş bir modeldir ve genellikle bu model abartılır, çünkü gözlemlenen verilere mükemmel bir şekilde uyacaktır, ancak gelecekteki vakaları iyi bir şekilde önceden yüklememesi gerekmez.
Michael R. Chernick

3
Kementin en fazla değişkeni seçmesi , herhangi bir anda aktif kümeye en fazla değişkeni kabul eden LARS algoritması kullanılarak çözülebilmesinin (hafif bir modifikasyonunun) bir sonucu olarak görülebilir . Bunun elastik-net durumda olmaması, esasen cezasının dahil edilmesinden ve bu nedenle, normal olarak tüm katsayıların sıfırdan çıkmasına neden olan sırt regresyonu gibi davranır. n 2nn2
kardinal

Cevaplar için teşekkür ederim ve en fazla n değişkenin seçilebileceği degrade iniş için nasıl görürdüm : cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ adresindeki sunum ... en Kağıt (bölüm 4) datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731

3
@user: Matematiksel problemi sayısal çözümü ile karıştırıyor olabilirsiniz. LARS algoritması, kement çözümünün en fazla değişken seçeceğini gösterir . Bu, çözüme ulaşmak için gerçek sayısal araçlardan bağımsızdır, yani, LARS algoritması sorun hakkında fikir verir, ancak elbette sorunu eşdeğer olarak çözen diğer herhangi bir yöntem aynı özelliğe sahip olmalıdır! :-)n
kardinal

kez çoğaltılmış bir özellik düşünün . Tam olarak sıfır olmayan bir kement tahmincisi olacaktır ( olsa bile ) Bu nedenle ifadeniz yazıldığı gibi doğru değildir. p p > nppp>n
user795305

Yanıtlar:


10

Söylendiği gibi, bu bir algoritmanın değil, optimizasyon probleminin bir özelliğidir. KKT koşulları temel olarak, katsayısının sıfır olmaması için artık ( normalleştirme parametresidir).| X, T j ( y - x β ) | = λ λβj|Xjt(yXβ)|=λλ

Mutlak değer vs ile çeşitli komplikasyonları çözdükten sonra, sıfır olmayan her katsayı için doğrusal bir denklem kalır. olduğunda matrisinin sırası en fazla olduğundan , bu çözülebilecek denklemlerin sayısıdır ve bu nedenle en fazla n sıfır olmayan (fazlalık olmadığı sürece) vardır.n p > nXnp>n

Bu arada, bu sadece kaybı olan standart kement için değil, herhangi bir kayıp fonksiyonu için geçerlidir . Bu aslında kement cezasının bir özelliğidir. Bu KKT görüşünü ve sonuçta ortaya çıkan sonuçları gösteren birçok makale var, makalemize işaret edebilirim: Rosset ve Zhu, Parçalı Doğrusal Düzenli Çözüm Yolları, Annals of Stats 2007 ve refs.L2


KKT ne anlama geliyor? Ayrıca, standart kement hakkında konuşurken L1 kaybı demek mümkün mü?
miura

Merhaba Saharon ve siteye hoş geldiniz. Formülleri daha temiz hale getirmek için LaTeX'i kullanabilirsiniz (cevabınızda bunu yaptım) ve otomatik olarak bir imza eklendiğinden yazılarınızı imzalamanız gerekmez.
Peter Flom - Monica'yı eski durumuna döndürün

1
@miura: KKT, Karush-Kuhn-Tucker anlamına geliyor. KKT koşulları, (yeterince düzenli) optimizasyon problemlerinin çözümlerinin yerine getirmesi gereken bazı denklemlerdir ( wikipedia makalesi ).
mogron

Sadece görüyorum ki Ryan Tibshirani'nin 'Kement Sorunu ve Tekliği' ile ilgili çok ilgili bir çalışma kağıdı var: stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731 8:12

6

Başka bir açıklama şöyledir: , veri matrisinin sırası en fazla , bu nedenle (sağ) null boşluğunun boyutu en az . Bu sıfır boşluğundaki herhangi bir vektörü . Daha sonra herhangi bir uygun noktada , bir zaman bu hareket edebilen koordinatı eksenleri doğru boyutlu boş alan boyutlu çevre alanı, bir gelmesi , (en fazla) s sıfırdan farklıdır ve LASSO objektif işleviX n p - n z β p - n p β + z n β jn<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

azaldı.


(+1) Burada bir boşluk var: OPs gönderisiyle ilgili yorumuma bakın.
user795305
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.