Kementin regresyon için değişken seçimi için kullanılmasının dezavantajları nelerdir?


60

Bildiğim kadarıyla değişken seçimi için Kement kullanımı, korelasyonlu girdiler sorununu ele alıyor. Ayrıca, En Az Açı Regresyonu ile eşdeğer olduğundan, hesaplamalı olarak yavaş değildir. Bununla birlikte, birçok insan (örneğin biyo-istatistik yapmayı bildiğim insanlar) hala adım adım veya stagewise değişken seçimini desteklemektedir. Kementin elverişsiz kılan kullanımının herhangi bir pratik dezavantajı var mı?


9
Lasso'nun eşlik problemini ele aldığını nerede duyduğunuzu bilmiyorum, bu kesinlikle doğru değil.
Makro

3
At nalı önceliği model seçimi için LASSO'dan daha iyidir - en azından seyrek model durumunda (model seçiminin en faydalı olduğu yer). Bu noktaların bir tartışmasını bu Bağlantıda bulabilirsiniz . Bu yazının yazarlarından ikisi, Valensiya toplantılarına benzer bir yazı yazdı, Bayesian İstatistikleri 9 "Küresel Olarak Yasaklı Küçült Yasası: Seyrek Bayesian Düzenlemesi ve Tahmini". Valencia makalesi, ceza çerçevesiyle ilgili çok daha fazla ayrıntıya giriyor.
olasılık

9
Yalnızca öngörmeyle ilgileniyorsanız, model seçimi yardımcı olmaz ve genellikle incinir (ikinci dereceden bir cezanın aksine = L2 norm = değişken seçim yapılmayan regresyon). LASSO değişken seçimini yapmaya çalışmak için öngörülü ayrımcılığa bedel öder.
Frank Harrell

3
Keyfi bir karar vermek için yazı tura atmak çoğu zaman sonucu gerçekten umursadığınızı gösterir. Tahmin edicilerin seçimi konusunda size karar vermeyi teklif eden herhangi bir yöntem, modelde hangi tahmin edicilerin daha doğal olduğu, fikirlerini göz ardı etmek istemediğiniz fikirleri olduğunu açıkça belirtir. LASSO böyle çalışabilir.
Nick Cox,

5
Ben @Nick: "model seçimine rehberlik edecek teori yok" neredeyse hiç gerçekçi değil. Sağduyu teoridir.
Scortchi - Monica Yeniden

Yanıtlar:


29

Kademeli seçimi yapmak için hiçbir sebep yok. Bu sadece yanlış.

LASSO / LAR en iyi otomatik yöntemlerdir. Ancak bunlar otomatik yöntemlerdir. Analistin düşünmemesine izin verdiler.

Birçok analizde, bazı değişkenler herhangi bir anlamlılık ölçüsünün REGARDLESS modelinde olmalıdır. Bazen gerekli kontrol değişkenleridir. Diğer zamanlarda küçük bir etki bulmak önemli olabilir.


43
p

4
-1 aşamalı olarak battaniye eleştirisi nedeniyle. “Sadece yanlış” değil, deterministik model arayışı olarak bir yeri var. Motor kapağında otomatik yöntemler hakkında gerçekten bir arı var.
olasılık

8
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)

10
Herhangi bir gerilemeye başlamadan önce, eşlikliliğini kesinlikle araştırmalısınız. Çok sayıda ortak değişkeniniz varsa, LASSO veya Stepwise kullanmamalısınız; collinearity problemini çözmelisin (değişkenleri sil, daha fazla veri al, vb.) ya da bu problemler için tasarlanan bir yöntemi kullanmalısın (örn. ridge regresyonu)
Peter Flom - Reinstate Monica

5
Tamam haklısın ama bunun gerçekten alakalı olduğunu sanmıyorum. Ne geriye ne Kement Kement (ne de herhangi bir değişken seçim yöntemi) tüm sorunları çözmez. Modellenmeye başlamadan önce yapmanız gereken şeyler var - ve bunlardan biri de beraberlik kontrolü. Her iki yöntemin de uygulanması gereken regresyon kurallarını ihlal eden diğer veri setleri için hangi değişken seçim yönteminin işe yaradığı da umurumda değil.
Peter Flom - Monica'yı yeniden konumlandırın

22

Yalnızca tahmin hatasını önemsiyorsanız ve yorumlanabilirliği, gündelik çıkarımı, model sadeliği, katsayıları testleri vb. İle ilgilenmiyorsanız, neden hala doğrusal regresyon modelini kullanmak istiyorsunuz?

Karar ağaçları artırma veya vektör regresyonunu destekleme ve daha iyi bir tahmin kalitesi elde etme gibi bir şey kullanabilir ve söz konusu her iki durumda da fazla baskı yapmaktan kaçının. Bu, Kement'in en iyi tahmin kalitesini elde etmek için en iyi seçenek olmayabilir.

Anlayışım doğruysa, Lasso, yalnızca tahminlerle değil, modelle hala ilgilendiğiniz durumlar için tasarlanmıştır. Yani - seçili değişkenleri ve onların katsayılarını görün, bir şekilde yorumlayın vs.


20

LASSO, katsayıların 0'a büzülmesini teşvik eder, yani bunları modelinizden düşürür. Buna karşılık, bir sırt gibi diğer düzenlileştirme teknikleri tüm değişkenleri tutma eğilimindedir.

Bu yüzden, bu düşüşün verileriniz için anlamlı olup olmadığını düşünmenizi tavsiye ederim. Örneğin, gen mikroarray verileri veya titreşim spektroskopik verileri üzerinde bir klinik tanı testi oluşturmayı düşünün.

  • Bazı genlerin konuyla ilgili bilgi taşımasını beklersiniz, fakat diğer birçok gen sadece gürültüdür. başvurunuz. Bu değişkenleri düşürmek tamamen mantıklı bir fikir.

  • Buna karşılık, titreşimsel spektroskopik veri kümeleri (genellikle mikrodizi verilere kıyasla benzer boyutlara sahip olsa da), ilgili bilginin spektrumun büyük bölümleri (korelasyon) üzerine "bulaşması" eğilimindedir. Bu durumda, düzenlemenin değişkenleri düşürmesini istemek özellikle mantıklı bir yaklaşım değildir. Dahası, PLS gibi diğer düzenlileştirme teknikleri bu tip verilere daha fazla uyarlanır.

İstatistiksel Öğrenmenin Öğeleri , LASSO hakkında iyi bir tartışma sunar ve onu diğer düzenleme teknikleriyle karşılaştırır.


14

Eğer iki prediktör yüksek oranda korelasyon gösteriyorsa, LASSO keyfi olarak birini bırakarak sona erebilir. Bu iki tahmincinin birbiriyle korele olmadığı bir popülasyon için öngörülerde bulunmak istemeniz, ve bu şartlar altında belki de regresyon regresyonunu tercih etmenin bir nedenidir.

Ayrıca tahmin edicilerin standardizasyonunu düşünebilirsiniz (katsayıların "büyük" veya "küçük" olduğu zaman), rasgele ve kategorik tahmincileri standardize etmenin mantıklı yolları hakkında şaşkın olmalısınız (benim gibi).


1
Bu cevap için teşekkürler. İlişkili yordayıcılar / kategorik yordayıcılar ile ilgili sorunları tartışan herhangi bir makale biliyor musunuz?
Berk U.

2
Buna ek olarak, bu sorunları hafifletmeye çalışan (elastik ağ gibi) diğer cezai regresyon yöntemlerinin bulunduğunu da eklemeye değer.
bdeonovic

Son derece genel değişkenlere sahip değişken seçimi yapmak için, yinelemeli adaptif sırt (L0 cezalandırılmış regresyon ve l0ara paketinde uygulanan değerlere yaklaşır) en iyi performansı gösterir veya L0Learn paketinde uygulanan L0L2 cezalarını da en iyi şekilde yapar ...
Tom Wenseleers

9

Kement, yalnızca, tahmin edilecek parametrelerde doğrusal olan modelleri göz önüne almanızla kısıtlıyorsanız kullanışlıdır. Başka bir deyişle, kement bağımsız ve bağımlı değişken (ler) arasındaki ilişkinin doğru biçimini seçip seçmediğinizi değerlendirmez.

Keyfi bir veri setinde doğrusal olmayan, etkileşimli veya polinom etkilerin olması çok olasıdır. Bununla birlikte, bu alternatif model özellikleri yalnızca kullanıcı bu analizi yaparsa değerlendirilecektir; Kement bunu yapmak için bir yedek değil.

Bunun nasıl yanlış gidebileceğine dair basit bir örnek için, bağımsız değişkenin ayrık aralıklarının, bağımlı değişkenin alternatif yüksek ve düşük değerlerini öngöreceği bir veri seti düşünün. Bu, geleneksel lineer modeller kullanarak bunu çözmek için zor olacaktır, çünkü analiz için mevcut olan manifest değişkenlerinde lineer bir etki yoktur (ama manifest değişkenlerin bazı dönüşümleri faydalı olabilir). En açık biçimde bırakıldığında, kement yanlış bir şekilde bu özelliğin gereksiz olduğu ve katsayısının sıfır olduğu sonucuna varır çünkü doğrusal bir ilişki yoktur . Öte yandan, verilerde eksen hizalı bölmeler bulunduğundan, rastgele bir orman gibi ağaç tabanlı bir model muhtemelen oldukça iyi sonuç verecektir.

görüntü tanımını buraya girin


5

Kement ve diğer normalleştirme tekniklerinin pratik bir dezavantajı, optimal regülasyon katsayısını, lambda'yı bulmaktır. Bu değeri bulmak için çapraz doğrulama kullanmak, kademeli seçim teknikleri kadar pahalı olabilir.


Ne demek "pahalı"?
mark999

4
Bu iddia gerçekten doğru değil. Glmnet yönteminde olduğu gibi "sıcak başlangıç" ızgarası aramasını kullanırsanız, tüm ızgarayı çok hızlı bir şekilde hesaplayabilirsiniz.
olasılık

1
@probabilityislogic Doğru, yukarıdaki yorumu yaptıktan sonra sadece sıcak başlangıçları okudum. Sıcak başlangıçların daha yavaş ve bazen basit çapraz onaylamadan daha az etkili olduğunu gösteren bu makale hakkında ne düşünüyorsunuz? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999

5
λ

5

Ben bir LASSO uzmanı değilim ama zaman serilerinde uzmanım. Zaman serisi verileriniz veya mekansal verileriniz varsa, bağımsız gözlemlere dayanan bir çözümden titizlikle kaçınırdım. Ayrıca, verilerinizle ilgili ciddi belirleyici etkiler varsa (seviye değişimleri / zaman eğilimleri vb.), LASSO daha az iyi bir çekiç olacaktır. Zaman serisi verileriniz olduğunda, zamanla değişen parametreler veya hata değişimleriyle karşılaştığınızda genellikle verileri bölümlere ayırmanız gerekir.


1
LASSO, artoretoreyonlar (AR), vektör otoregressyonlar (VAR) ve vektör hata düzeltme modelleri (VECM) gibi regresyona dayalı zaman serisi modellerinde uygulandığında iyi tahmin performansı sağlayabilir. Örneğin, kement vektörleri otoregresyonunu araştırın ve akademik literatürde birçok örnek bulacaksınız. Kendi tecrübelerime göre, sabit VAR modelleri için LASSO kullanımı, tüm alt küme seçimine veya sırt düzeneğine kıyasla üstün tahmin performansı sağlarken, sırt düzeneği, entegre VAR modelleri için LASSO'yu (Scortchi'nin yanıtına göre çok kutupluluk nedeniyle) yener.
Richard Hardy

Dolayısıyla, LASSO’nun başarısızlığı, zaman serilerindeki verilere bağlı değildir.
Richard Hardy

2

Bu zaten oldukça eski bir soru ama bu arada cevapların çoğunun oldukça modası geçmiş olduğunu düşünüyorum (ve doğru cevap olarak kontrol edilenin yanlış olduğu da açık).

İlk olarak, iyi tahmin performansı elde etmek açısından, LASSO'nun her zaman adım adım daha iyi olduğu evrensel olarak doğru değildir. Hastie ve arkadaşlarının (2017) "En İyi Alt Küme Seçimi, İleriye Doğru Kademeli Seçim ve Kement Seçiminin Genişletilmiş Karşılaştırmaları" makalesi , ileriye doğru kademeli ileri, LASSO ve rahat LASSO gibi bazı LASSO çeşitlerinin yanı sıra en iyi alt kümenin geniş bir karşılaştırmasını sunar. adım adım LASSO'dan bazen daha iyi olduğunu gösterin. LASSO'nun bir çeşidi olsa da - rahat LASSO - en geniş koşullar altında en yüksek model tahmin doğruluğunu üreten modeldi. Hangisinin en iyisi olduğu sonucu, en çok ne düşündüğünüze bağlıdır, örneğin, bunun en yüksek tahmin doğruluğu mu olacağı yoksa en düşük yanlış pozitif değişkenlerin seçilip seçilmediği.

Birçoğu LASSO'dan daha iyi olsa da, bir çok seyrek öğrenme yöntemi hayvanat bahçesi var. Örneğin, Meinhausen'in rahat LASSO'su , uyarlanabilir LASSO ve SCAD ve MCPncvreg , standart LASSO'dan daha az önyargılı olan ve tercih edilenler gibi pakette uygulanan regresyonun cezalandırılmasını sağlamıştır. Ayrıca, en iyi tahmin performansına sahip mutlak en saf çözümle ilgileniyorsanız, L0 cezalandırılmış regresyon (aka en iyi alt küme, yani, LASSO'daki katsayıların mutlak değerinin toplamına karşılık sıfır olmayan katsayıların sayısının cezalandırılması temelinde) LASSO'dan daha iyidir, örneğin, bir yinelemeli uyarlamalı çıkıntı prosedürü kullanarak L0 cezalı GLM'lere yaklaşan l0arapakete bakınız.Ve LASSO farklı de son derece doğrudaş değişkenler ve çok iyi çalıştığı L0Learnpaketi kullanılarak L0 ceza regresyon modelleri sığabilecek, iniş koordinat doğrudaşlığa düzene L2 cezası ile potansiyel olarak kombinasyon halinde.

Öyleyse asıl sorunuza geri dönmek için: neden LASSO'yu değişken seçimi için kullanmıyorsunuz? :

(1) katsayılar çok taraflı olacağından, rahat LASSO, MCP ve SCAD cezalandırılmış regresyonda iyileştirilmiş ve tamamen L0 cezalandırılmış regresyonda (tam bir kehanet özelliğine sahip, yani nedensel değişkenleri ve geri dönüşü alabilecek şekilde) tamamen çözülmüş olacağı için yansız katsayılar, p> n durumlar için)

(2) L0 cezalandırılmış regresyondan çok daha fazla yanlış pozitif üretme eğiliminde olduğu için (testlerimde l0araen iyi performansı veren, yani yinelemeli uyarlamalı sırt, ardından L0Learn)

(3) collinear değişkenleriyle iyi baş edemediği için (esasen sadece collinear değişkenlerinden birini seçecektir) - yinelemeli adaptif sırt / / l0arave L0L2 cezaları bununla L0Learnbaşa çıkmada çok daha iyidir.

Tabii ki, genel olarak, en uygun tahmin performansını elde etmek için düzenlileştirme parametrelerinizi ayarlamak için çapraz doğrulama kullanmanız gerekecek, ancak bu bir sorun değil. Parametrelerinize yüksek boyutsal çıkarımlar bile yapabilir ve parametrik olmayan önyükleme yoluyla isterseniz bile katsayılarınızdaki% 95 güven aralığını hesaplayabilirsiniz (hatta her önyükleme veri setinde çapraz doğrulama yaparsanız bile optimal regülasyonun seçimindeki belirsizliği hesaba katabilirsiniz) , ama o zaman oldukça yavaş olur).

Hesaplamalı LASSO, btw'ye aşamalı olarak yaklaşmaktan daha yavaş değildir, kesinlikle LASSO düzenlileştirmenizi optimize etmek için sıcak başlangıçlar kullanan yüksek derecede optimize edilmiş kod kullanan bir kod kullanmıyorsa (kendinizi fsadım adım ileriye ve lassopaketteki LASSO komutunu kullanarak karşılaştırabilirsiniz bestsubset). Kademeli yaklaşımların hala popüler olması gerçeğinin muhtemelen birçoğunun hatalı modeline inanmasıyla ilgisi olmalı, o zaman nihai modelinizi koruyabilir ve bunun p değerleri ile ilişkili olduğunu rapor edebilirsiniz - ki bu aslında doğru bir şey değildir, çünkü bu doğru değildir. Model seçiminizin getirdiği belirsizliği göz önünde bulundurarak, iyimser p değerleri ile sonuçlandı.

Bu yardımcı olur umarım?


0

Büyük olanlardan biri hipotez testi yapmanın zorluğudur. Lasso ile hangi değişkenlerin istatistiksel olarak anlamlı olduğunu kolayca çözemezsiniz. Aşamalı regresyon ile, eğer çoklu test tedavi konusunda dikkatli olursanız, bir dereceye kadar hipotez testi yapabilirsiniz.


8
Bunun bir dezavantaj değil bir avantaj olduğunu söyleyebilirim. Muhtemelen yapmamanız gereken bir şey yapmanıza engel olur.
Peter Flom - Monica Yeniden

@Peter: Neden? Elde edilen P-değerlerinin geçerli olması için çoklu testler vs.
dsimcha

10
Gerçekten adım adım çoklu test için doğru düzeltmenin bir yolu yok. Bakınız, örneğin Harrell Regression modelleme stratejileri. Doğru düzeltmeyi bilmenin yolu yok
Peter Flom - Monica’yı yeniden yerleştirin

4
Hipotez testi yapmanın zorluğunun, LASSO'nun potansiyel bir dezavantajı olduğu doğrudur. Bunun, kademeli bir gerileme karşısında bir dezavantaj olduğu doğru değildir.
gung - Reinstate Monica

2
Eh, seçici çıkarsama çerçevesi (selectiveInference paketinde uygulandı) LASSO için (seçim sonrası) çıkarım yapmak için kullanılır. Veya herhangi bir değişken seçim yöntemi için, biri çıkarım yapmak ve parametre tahminlerinize güven aralıklarını almak için parametrik olmayan bootstrapping kullanabilir. ..
Tom Wenseleers
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.