Varsayalım ki, iki yüksek korelasyonlu yordayıcı değişkeni ve her ikisinin de ortalanmış ve ölçeklendirilmiş olduğunu varsayalım (sıfıra, varyans birine). Daha sonra, parametre vektörü üzerindeki sırt cezası β 2 1 + β 2 2 iken, kement ceza süresi ∣ β 1 ∣ + ∣ β 2 ∣ 'dir . Şimdi, modelin yüksek derecede lineer olduğu varsayıldığından, x ve z az ya da çok Y'yi tahmin etmede birbirinin yerine geçebilir , sadece kısmen ikame ettiğimiz x , z'nin birçok doğrusal kombinasyonux,zβ21+β22∣β1∣+∣β2∣xzYx,zz için x , öngörücülerle çok benzer şekilde çalışacaktır, örneğin 0,2 x + 0,8 x , 0,3 x + 0,7 z veya 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5ztahminciler kadar eşit derecede iyi olacaktır. Şimdi bu üç örneğe bakın, her üç durumda da kement cezası eşittir, 1'dir, sırt cezası farklılık gösterirken, sırasıyla 0.68, 0.58, 0.5'dir, bu nedenle sırt cezası, kement cezası sırasında lineer değişkenlerin eşit ağırlıklandırılmasını tercih edecektir. seçim yapamayacak. Bu, sırtın (veya daha genel olarak, kement ve sırt cezalarının lineer bir kombinasyonu olan elastik ağ) doğrusal çizgisel öngörücülerle daha iyi çalışmasının bir nedenidir: Veriler, doğrusal doğrusal öngörücülerin farklı doğrusal kombinasyonları arasında seçim yapmak için çok az neden verdiğinde, kement sırt eşit ağırlıklandırma eğiliminde iken "dolaş". Sonuncusu gelecekteki verilerle kullanmak için daha iyi bir tahmin olabilir! Ve eğer bu, mevcut verilerle böyleyse, çapraz doğrulamayla sırt ile daha iyi sonuçlar olarak ortaya çıkabilir.
Bunu bayesci bir şekilde görebiliriz: Sırt ve kement farklı önceki bilgileri ima eder ve sırt tarafından ima edilen önceki bilgiler bu gibi durumlarda daha makul olma eğilimindedir. (Bu açıklamayı az çok, kitabından öğrendim: Trevor Hastie, Robert Tibshirani ve Martin Wainwright'ın "Kıtlıkla İstatistiksel Öğrenme Kement ve Genellemeler", ama şu anda doğrudan bir alıntı bulamadım).