LASSO / LARS ve genel - özel (GETS) yöntemi


15

Merak ediyorum, LASSO ve LARS model seçim yöntemleri, temelde sadece adım adım ileri seçimin varyasyonları olsa da (bu yüzden yol bağımlılığından muzdarip) neden bu kadar popüler?

Benzer şekilde, model seçimi için General to Specific (GETS) yöntemleri, adım adım regresyon probleminden muzdarip olmadıkları için neden LARS / LASSO'dan daha iyi olsalar da çoğunlukla göz ardı edilmektedir? (GETS için temel referans: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - buradaki yeni algoritma, yol bağımlılığını önleyen geniş bir model ve ağaç araması ile başlar ve genellikle LASSO / LARS'tan daha iyi).

Sadece garip görünüyor, LARS / LASSO Genel'den Spesifik'e (GETS) göre çok daha fazla pozlama ve alıntı yapıyor gibi görünüyor, herhangi bir düşüncesi var mı?

Sıcak bir tartışmaya başlamaya çalışmamak, literatürün neden GETS yerine LASSO / LARS'a odaklandığını ve daha az insanın LASSO / LARS'ın eksikliklerine dikkat çektiğini rasyonel bir açıklama arıyor.


Burada bağımlı olan yolla ne demek istiyorsun ? Ayrıca, GETS için verebileceğiniz daha yetkili bir referans var mı? Buna aşina değilim.
kardinal


Ne demek istediğimi de ekleyecektim: bu yüzden tek tek önemli regresörler eklersiniz, ancak bu yaklaşım, regresörler arasındaki korelasyona dayanarak önemsiz hale gelebilirse bir tane bırakmanıza izin vermez. Böylece, bir kez eklendiğinde, bu regresörün ayarlandığı ve düşürülemeyeceği yol bağımlılığı vardır. Durum böyle değil mi?
tortilla

1
Katsayı yolu yol boyunca sıfırdan geçerse değişkenlerin kement tarafından yarıya düşmesi mümkündür. Efron ve ark. LARS ile ilgili orijinal makale? Bunu güzel bir geometrik lezzet ile önemli ölçüde açıklıyor.
kardinal

2
Bence Kement popülerdir, çünkü hipotez testinden bir parametre tahmininden birine model seçim problemini etkili bir şekilde yeniden yayınlar.
probabilityislogic

Yanıtlar:


2

Feragatname: David F. Hendry'nin diğerleri arasında model seçimi konusundaki çalışmalarına sadece uzaktan alışkınım. Bununla birlikte, saygın meslektaşlardan Hendry'nin ekonometri içindeki model seçim problemleri üzerinde çok ilginç ilerleme kaydettiğini biliyorum. İstatistik literatürünün model seçimi konusundaki çalışmalarına yeterince dikkat etmediğini yargılamak benim açımdan çok daha fazla çalışma gerektirecektir.

Bununla birlikte, bir yöntem veya fikrin neden diğerlerinden daha fazla etkinlik ürettiğini anlamaya çalışmak ilginçtir. Kuşkusuz, bilimde de modanın boyutları vardır. Gördüğüm gibi, lasso'nun (ve arkadaşlarının) çok kolay ifade edilen bir optimizasyon probleminin çözümü olmasının büyük bir avantajı var. Bu, çözümün ayrıntılı teorik olarak anlaşılması ve geliştirilen algoritmaların anahtarıdır. Son zamanlarda Bühlmann ve Van De Geer'in Yüksek Boyutlu Verilere Yönelik İstatistikler , kement hakkında zaten ne kadar bilgi sahibi olduğunu gösteriyor.

Sonsuz simülasyon çalışmaları yapabilir ve elbette, belirli bir uygulama için en uygun ve uygun bulduğunuz yöntemleri uygulayabilirsiniz, ancak istatistiksel literatürün bazı bölümleri için de önemli teorik sonuçlar elde edilmelidir. Kementin çok fazla etkinlik yaratması, aslında yaklaşılabilecek teorik soruların olduğunu ve ilginç çözümlere sahip olduklarını göstermektedir.

Başka bir nokta, kement veya varyasyonların yapmak birçok durumda iyi performans. Kementin OP'nin önerdiği gibi diğer yöntemlerle çok daha iyi performans göstermesinin doğru olduğuna ikna olmadım. Belki (yapay) model seçimi açısından, ancak tahmini performans açısından değil. Bahsedilen referansların hiçbiri Gets ve lasso'yu gerçekten karşılaştırmamaktadır.


2

LASSO ve LARS model seçim yöntemleri, temelde sadece adım adım ileri seçimin varyasyonları olmasına rağmen neden bu kadar popüler?

LASSO ve (GETS) alt küme seçimi arasında bir fark vardır: LASSO, katsayıları veriye bağlı bir şekilde sıfıra doğru küçültürken (GETS) alt küme seçimi yapmaz. Bu, bazen başarısız olsa bile LASSO (GETS) alt kümesi seçiminin bir avantajı gibi görünmektedir (normalde çapraz doğrulama ile yapılan parametre ayarına ihtiyaç duyar ve bazen zayıf ayar yapabiliriz).

(GETS) yöntemleri <...> LARS / LASSO'dan daha iyisini yapar

GETS'in performansı tarafsız (?) Araştırmacılar tarafından yapıldığında LASSO ile karşılaştırılabilir kalitede görünmektedir (her ne kadar GETS'nin yeni bir versiyonunun önerildiği kağıtlarda öyle olmasa da - beklediğiniz şey budur); bazı referanslara bakınbu konudaki .

Belki de Sir Hendry & Co, uygulamalarının özellikleri (çoğunlukla makroekonomik zaman serileri modellemesi) nedeniyle GETS kullanarak iyi sonuçlar alıyor? Ama bu neden olabilir? Bu ayrı bir soru .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.