Yanıtlar:
Ceza ekleyerek kayıp fonksiyonunu değiştirmek yeterlidir. Matris terimlerinde, ilk ikinci dereceden kayıp işlevi (Y - X \ beta) ^ {T} (YX \ beta) + \ lambda \ beta ^ T \ beta olur. \
Ne bildiğimizi temel alalım, ki bu, modeli matrisi , -vector yanıtının ve -vector parametresinin ise , amaç işlevidir.X n y p β
(artıkların karelerinin toplamıdır) Normal denklemleri çözdüğünde simge durumuna küçültülür
Ridge regresyon objektif fonksiyona başka bir terim ekler (genellikle tüm değişkenleri ortak bir temele koymak için standartlaştırdıktan sonra), en aza indirgemeyi ister
Bazı negatif olmayan sabitler için . Artıkların karelerinin toplamı artı katsayıların kendi karelerinin toplamının bir katıdır (küresel bir asgari düzeye sahip olduğunu açıkça gösterir). Çünkü , pozitif bir kare kökü var .λ ≥ 0
Matris düşünün satır tekabül ile artar kez kimlik matrisi :ν p × p I
vektörü , sonunda sıfırlarla e benzer şekilde uzatıldığında , amaç fonksiyonundaki matris ürünü, formunun ek terimlerini ekler. orijinal hedefe. bu nedenlep Y * p ( 0 - v ^ p i ) 2 = A, p 2 i
Soldaki ifade biçiminden, Normal denklemlerin olduğu hemen olur.
Sıfırları sonuna getirdiğimiz için, sağ taraf aynıdır . Sol tarafta orijinal eklenir . Bu nedenle yeni Normal denklemler basitleştirmek içinX ′ y ν 2 I = λ I X ′ X
Kavramsal olarak ekonomik olmanın yanı sıra - bu sonucu elde etmek için yeni manipülasyonlara gerek yoktur - bu aynı zamanda hesaplama açısından da ekonomiktir: sıradan en küçük kareleri yapma yazılımınız da herhangi bir değişiklik yapmadan sırt regresyonu yapar. (Bununla birlikte, bu amaç için tasarlanan yazılımı kullanmak büyük sorunlarda yardımcı olabilir, çünkü yoğun bir aralıktaki aralığında etkin bir şekilde sonuç elde etmek için özel yapısından faydalanır ve cevapların nasıl değiştiğini araştırmanızı sağlar ile ). λ λ
Bir şeylere bu şekilde bakmanın bir başka güzelliği de sırt regresyonunu anlamamıza nasıl yardımcı olabileceğidir. Gerilemeyi gerçekten anlamak istediğimizde, neredeyse her zaman onu geometrik olarak düşünmeye yardımcı olur: sütunları vektörünün gerçek bir vektör uzayında vektörleri oluşturur . Bitişik olarak için bunları uzatan ve böylece, için -vectors -vectors biz Gömdüğünüz daha geniş bir alana içerecek "hayali", karşılıklı dik yönler. ilk sütunup , n ν I X , n , n + p R n R, n + p s x ν p s inci ν ν p ν 0 boyutunda küçük bir hayali bileşen verilir , böylece onu uzatır ve orijinal sütunları tarafından oluşturulan alandan çıkarır . İkinci, üçüncü, ..., sütunları benzer şekilde uzatılır ve orijinal alandan aynı miktarda - ancak hepsi farklı yeni yönlerde taşınır . Sonuç olarak, orijinal sütunlarda bulunan herhangi bir eşliklilik derhal çözülecektir. Üstelik, büyüdükçe, bu yeni vektörler bireysel yaklaşırsahayali yönler: gittikçe daha fazla ortonormal olurlar. Sonuç olarak, Normal denklemlerin çözümü derhal mümkün olacak ve dan arttıkça hızla sayısal olarak kararlı hale gelecektir .
Sürecin bu açıklaması, Ridge Regression'ın ele almak için tasarlandığı sorunlara değinmek için bazı yeni ve yaratıcı yaklaşımlar önerdi . Örneğin, herhangi bir araç kullanılarak (örneğin onların 1980 kitabında Belsley, Kuh ve Welsch tarafından açıklanan varyans ayrışma olarak regresyon Diagnostics , Bölüm 3), sen neredeyse aynı doğrultudaki sütunların alt gruplarını tanımlamak mümkün olabilir , nerede her alt grup diğerine göre neredeyse diktir. Yalnızca birçok satır olarak bitişik ihtiyaç (ve sıfır uzakta onun kardeşleri bir grubun her bir elemanın yer değiştirmesiyle için yeni bir "hayali" boyutunu ithaf) büyük grupta unsur vardır gibidir: İhtiyacınız olmayan hayali Bunu yapmak için boyutları.X y p
Son zamanlarda P-Splines bağlamında aynı soruyu tökezledim ve kavram aynı olduğundan sırt tahmincisinin türetilmesi hakkında daha ayrıntılı bir cevap vermek istiyorum.
Klasik OLS kriter fonksiyonundan farklı bir ceza fonksiyonu ile başlıyoruz.
nerede
Bu kriteri matris notasyonunda tekrar yazabilir ve daha da bozabiliriz:
ile kimlik matrisi
Şimdi ölçütümüzü en aza indiren arıyoruz . Diğerlerinin yanı sıra bunu matris farklılaşma kuralı kullanan ki biz burada :
Verilen cevaplarda eksik olan birkaç önemli şey var.
çözümü , birinci dereceden gerekli koşuldan kaynaklanır: ; . Ama bu yeterli mi? Başka bir deyişle, çözüm yalnızca kesinlikle dışbükeyse genel bir minimumdur . Bunun doğru olduğu gösterilebilir.
Soruna bakmanın başka bir yolu, ve arasındaki kısıtlanmış için . OLS, Sıradan En Küçük Kareler anlamına gelir. Bu açıdan , dışbükey amaç işlevi dışbükey işlev işlevinin genel bulmak için kullanılan .
Bu noktaların iyi bir açıklaması ve türetilmesi bu ince ders notlarında bulunabilir: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf