Bu varyansla ilgili
OLS, En İyi Doğrusal Tarafsız Tahmincisi (MAVİ) olarak adlandırılanı sağlar . Bu, başka bir tarafsız tahmin ediciyi alırsanız, OLS çözümünden daha yüksek bir varyansa bağlı olduğu anlamına gelir. Öyleyse neden dünyada bundan başka bir şey düşünelim?
Şimdi, kement veya sırt gibi düzenli hale getirme hilesi, varyansı azaltmaya çalışmak için biraz önyargı eklemektir. Çünkü tahmin hatasını tahmin ettiğinizde, bu üç şeyin birleşimidir :
Son bölüm indirgenemez hatadır, dolayısıyla bunun üzerinde kontrolümüz yoktur. OLS çözeltisi kullanılarak önyargı terimi sıfırdır. Ancak ikinci terim büyük olabilir. ( İyi tahminler istiyorsak ), bir önyargı eklemek ve umarım varyansı azaltmak iyi bir fikir olabilir .
E[(y−f^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2
Peki bu nedir? Modelinizdeki parametreler için tahminlerde sunulan varyanstır. Doğrusal model
. OLS çözümünü elde etmek için minimizasyon problemi
Bu,
Sırt regresyonu için en aza indirme sorunu benzer:
Şimdi çözüm olur
y = x β + ε ,Var[f^(x))]arg dak β | | y - X β | | 2 β en küçük kareler = ( X , T x ) - 1 x T y arg dakika β | | y - X β | | 2 + λ | | β | | 2
y=Xβ+ϵ,ϵ∼N(0,σ2I)
argminβ||y−Xβ||2
β^OLS=(XTX)−1XTy
argminβ||y−Xβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)−1XTy
Bu yüzden bu (sırt olarak adlandırılır) tersine çevirdiğimiz matrisin köşegenine ekliyoruz . Bunun matrisi üzerindeki etkisi, matrisin determinantını sıfırdan "
çekmesidir ". Böylece ters çevirdiğinizde, büyük özdeğerler elde edemezsiniz. Ancak bu başka bir ilginç gerçeğe yol açar, yani parametre tahminlerinin varyansı azalır.
λIXTX
Bundan daha net bir cevap verebilir miyim emin değilim. Bunların tümü, modeldeki parametreler için kovaryans matrisi ve bu kovaryans matrisindeki değerlerin büyüklüğüdür.
Sırt regresyonunu örnek olarak aldım, çünkü bunun tedavisi çok daha kolay. Kement çok daha zordur ve hala bu konuda aktif olarak devam eden araştırmalar vardır.
Bu slaytlar daha fazla bilgi sağlar ve bu blogun bazı alakalı bilgileri de vardır.
EDIT: Ne demek sırt ekleyerek determinant sıfırdan " çekilir "?
Matris bu Not pozitif tanımlı simetrik bir matristir. Gerçek değerlere sahip tüm simetrik matrislerin gerçek özdeğerlerine sahip olduğunu unutmayın. Ayrıca pozitif olarak tanımlandığı için öz değerlerin hepsi sıfırdan büyüktür.XTX
Peki özdeğerleri nasıl hesaplıyoruz? Karakteristik denklemi :
Bu, cinsinden bir polinomdur ve yukarıda belirtildiği gibi özdeğerler gerçek ve pozitiftir. Şimdi tersine çevirmemiz gereken sırt matrisi denklemine bakalım:
Bunu biraz değiştirebiliriz bit ve bkz:
Böylece bunu için çözebilir ve aynı özdeğerleri alabiliriz ilk soruna gelince. Bir özdeğerin olduğunu . Böylece sırt probleminin öz . Tarafından değiştirilir
det(XTX−tI)=0
tdet(XTX+λI−tI)=0
det(XTX−(t−λ)I)=0
(t−λ)titi+λλ . Bu tüm özdeğerlere olur, bu yüzden hepsi sıfırdan uzaklaşır.
İşte bunu gösteren bazı R kodları:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Hangi sonuçları verir:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Böylece tüm özdeğerler tam olarak 3'e yükselir.
Bunu genel olarak Gershgorin daire teoremini kullanarak da kanıtlayabilirsiniz . Orada özdeğerleri içeren dairelerin merkezleri diyagonal elementlerdir. Çapraz daireye her zaman pozitif gerçek yarım düzlemdeki tüm daireleri yapmak için "yeterli" ekleyebilirsiniz. Bu sonuç daha geneldir ve bunun için gerekli değildir.