İstatistiksel Öğrenmeye Giriş bölümündeki 223. Sayfada yazarlar ridge regresyonu ile kement arasındaki farkları özetlemektedir. "Kementin önyargı, varyans ve MSE açısından sırt regresyonundan daha iyi performans gösterme eğiliminde olduğu" bir örnek (Şekil 6.9).
Kementin neden arzu edildiğini anlıyorum: çok sayıda katsayıyı 0'a daralttığı için basit ve yorumlanabilen modeller ile sonuçlanan seyrek çözümlerle sonuçlanır. Ancak yalnızca tahminler ilgi çekerken sırtın nasıl daha iyi performans gösterdiğini anlamıyorum (örn., Örnekte önemli ölçüde daha düşük bir MSE nasıl elde edilir?).
Sırtıma göre, birçok tahminci cevap üzerinde neredeyse hiçbir etkiye sahip değilse (birkaç tahminci büyük bir etkiye sahipken), katsayıları basitçe sıfıra çok yakın küçük bir sayıya daralmaz ... sonuçta kemente çok benzer ? Öyleyse neden son model kemente göre daha kötü bir performans göstersin?