Hem sırt hem de kement ayrı olarak iyi performans gösterdiğinde ancak farklı katsayılar üretildiğinde sonuçlar nasıl yorumlanır


11

Hem Kement hem de Ridge ile bir regresyon modeli kullanıyorum (0-5 arasında değişen ayrı bir sonuç değişkenini tahmin etmek için). Modeli çalıştırmadan önce, kullandığım SelectKBestyöntemi scikit-learngelen özellik kümesi azaltmak için 250 ile 25 . İlk özellik seçimi olmadan, hem Kement hem de Ridge daha düşük doğruluk puanlarına neden olur [bu, küçük örneklem büyüklüğü nedeniyle olabilir 600]. Ayrıca, bazı özelliklerin ilişkili olduğunu unutmayın.

Modeli çalıştırdıktan sonra, tahmin doğruluğunun Lasso ve Ridge ile neredeyse aynı olduğunu gözlemliyorum. Ancak, katsayıların mutlak değerine göre sipariş verdikten sonra ilk 10 özelliği kontrol ettiğimde, en fazla% 50 çakışma olduğunu görüyorum.

Yani, her bir yöntem tarafından özelliklerin farklı önemi verildiği göz önüne alındığında, seçtiğim modele dayalı tamamen farklı bir yorum alabilirim.

Normalde, özellikler bir web sitesindeki kullanıcı davranışının bazı yönlerini temsil eder. Bu nedenle, bulguları daha güçlü öngörme yeteneğine sahip özellikleri (kullanıcı davranışları) ve zayıf özellikleri (kullanıcı davranışları) vurgulayarak açıklamak istiyorum. Ancak, bu noktada nasıl ilerleyeceğimi bilmiyorum. Modeli yorumlamaya nasıl yaklaşmalıyım? Örneğin, her ikisini de birleştirmeli ve çakışanı vurgulamalı mı yoksa daha fazla yorumlanabilirlik sağladığı için Kement ile mi gitmeliyim?


3
(+1) Düzenlemenin, bireysel yanıt katsayılarını daha da kötüleştirdiği ve yeni yanıtları öngörmedeki kolektif performanslarını geliştirdiği görülebilir. Yorumunuzla tam olarak neyi başarmaya çalışıyorsunuz?
Scortchi - Monica'yı eski durumuna döndürün

1
@Scortchi yanıt verdiğiniz için teşekkürler. Bunu ekledimNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre

3
+1 AFAIK, sırt katsayıları ve lambda arasındaki ilişkinin monotonik olması gerekmezken, kementte ise. Bu nedenle, belirli büzülme seviyelerinde, sırt ve kementteki katsayıların mutlak değeri çok değişebilir. Bunu söyledikten sonra, birisinin bunun bir kanıtı
çizebileceğini

"Beta" katsayılarını sıraladığınızdan emin olun. Bkz. Stats.stackexchange.com/a/243439/70282 Standart değişkenler üzerinde eğitim alarak veya daha sonra bağlantıda açıklandığı gibi ayarlayarak bunları elde edebilirsiniz.
Chris

1
@ AsukaszGrad LASSO katsayıları, tahmin edicilerin korelasyonu varsa lambda'nın monotonik işlevleri olması gerekmez ; örnek için ISLR'nin şekil 6.6'sına bakınız . λ
EdM

Yanıtlar:


7

Ridge regresyonu tüm katsayıları küçülmeye teşvik eder. Kement, birçok / çoğu [**] katsayının sıfırı ve bir kaç sıfırı olmaya teşvik eder. Her ikisi de eğitim setindeki doğruluğu azaltacak, ancak tahmini bir şekilde geliştirecektir:

  • sırt regresyonu, fazlalığı azaltarak test setine genellemeyi geliştirmeye çalışır
  • Kement, hem eğitim hem de test setlerindeki performansı cezalandırsa bile sıfır olmayan katsayıların sayısını azaltacaktır.

Verileriniz yüksek derecede ilişkiliyse farklı katsayı seçenekleri alabilirsiniz. Yani, ilişkili 5 özelliğiniz olabilir:

  • tüm bu özelliklere küçük fakat sıfır olmayan katsayılar atayarak, sırt regresyonu eğitim setinde düşük kayıp elde edebilir ve bu da test setine makul bir şekilde genelleşebilir
  • Kement bunlardan sadece bir tanesini seçebilir, bu da diğer dördü ile iyi ilişkilidir. ve sırt regresyon versiyonunda en yüksek katsayılı özelliği seçmesinin bir nedeni yok

[*] 'select' tanımının bir anlamı için: sıfır regresyon katsayılarını atar, ki bu hala biraz el sallar, çünkü sırt regresyon katsayıları sıfırdan farklı olma eğilimindedir, ancak bazıları 1e-8 gibi olabilir ve diğerleri örneğin 0,01 olabilir

[**] nüans: Richard Hardy'nin işaret ettiği gibi, bazı kullanım durumları için, tüm LASSO katsayılarının sıfır olmamasına, ancak bir miktar daralmaya neden olacak bir değeri seçilebilir.λ


İyi öneriler. Bir korelasyon matrisi yapmak için iyi bir kontrol. Çakışmayan değişkenler yüksek derecede korelasyonlu olabilir.
Chris

3
İyi cevap! Ancak, sırtın aynı şeyi kement için söylemeden evrensel olarak test performansını artırmaya çalıştığını öne sürmenin adil olmadığından emin değilim. Örneğin, gerçek model seyrekse (ve öngörücülerimizin alt kümesinde),
kementin

Bu 'ihtisas üzerine bahis' ilkesidir. Örneğin, buradaki ilk plana bakın: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305 14:17

2
Verilerin çoklu önyükleme örnekleri arasında değişken seçeneklerin (LASSO) ve regresyon katsayılarının karşılaştırılması bu sorunları güzel bir şekilde gösterebilir. İlişkili öngörücülerle, LASSO tarafından farklı önyükleme noktalarından seçilenler, yine de benzer tahmin performansı sağlarken oldukça farklı olabilir. İdeal olarak, ilk özellik seti indirimi dahil olmak üzere tüm model oluşturma süreci, sürecin kalitesini belgelemek için çoklu önyüklemelerde tekrarlanmalıdır.
EdM

bu özelliklerden 4 tanesini, düşük katsayılarla veya hatta hepsini seçerek, yine küçük ama sıfır olmayan katsayılarla, sırt regresyonu eğitim setinde düşük kayıp yapabilir - sırt regresyonu değişkenleri seçmez. Ayrıca, düşük değerleri için , kement tüm değişkenleri seçecektir, ancak sırt gibi büzülme yapacaktır. λ
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.