Ridge regresyon tahminleri parametreleri doğrusal bir model içinde ile burada \ lambda bir düzenleme parametresidir. İlişkili pek çok yordayıcı olduğunda genellikle OLS regresyonundan ( \ lambda = 0 ile ) daha iyi performans gösterdiği iyi bilinmektedir .y = x β β λ = ( X ⊤ x + λ I ) - 1 x ⊤ y , λ λ = 0
Sırt regresyonu için bir varlık teoremi , \ hat {\ boldsymbol \ beta} _ \ lambda'nın ortalama kare hatası OLS'nin ortalama kare hatasından kesinlikle daha küçük olacak şekilde her zaman \ lambda ^ *> 0 parametresi bulunduğunu söyler. tahmin \ hat {\ boldsymbol \ beta} _ \ mathrm {OLS} = \ hat {\ boldsymbol \ beta} _0 . Başka bir deyişle, optimal bir \ lambda değeri her zaman sıfır değildir. Bu görünüşe göre ilk kez Hoerl ve Kennard, 1970'de kanıtlanmıştır ve çevrimiçi bulduğum birçok ders notunda tekrarlanır (örneğin burada ve burada ). Benim sorum bu teoremin varsayımları hakkında:
Kovaryans matrisi \ mathbf X ^ \ top \ mathbf X hakkında herhangi bir varsayım var mı?
\ Mathbf X'in boyutsallığı hakkında herhangi bir varsayım var mı?
Özellikle, öngörücüler dikey ise (yani diyagonal ise) veya \ mathbf X ^ \ top \ mathbf X = \ mathbf I olsa bile teorem hala geçerli midir? Ve sadece bir veya iki öngörücü (örneğin, bir öngörücü ve kesişme) varsa hala doğru mu?
Teorem bu gibi varsayımlarda bulunmazsa ve bu durumlarda bile doğru kalırsa, o zaman sırt regresyonu genellikle sadece ilişkili öngörücülerde tavsiye edilir ve basit (yani çoklu değil) regresyon için asla (?) Önerilmez?
Bu büzülmeye ilişkin Birleşik görüş hakkındaki sorumla ilgili: Stein'in paradoksu, sırt regresyonu ve karışık modellerde rastgele etkiler arasındaki ilişki (varsa) nedir? , ama şimdiye kadar hiçbir cevap bu noktayı netleştirmiyor.