LOOCV formülünün kanıtı


18

Kaynaktan İstatistiksel Öğrenme An Introduction James ve diğ., Çapraz doğrulama bırakılan bir çıkış (LOOCV) tahmini ile tanımlanır

CV(n)=1ni=1nMSEi
buradaMSEi=(yiy^i)2.

Kanıt olmadan, denklem (5.2), en küçük kareler veya polinom regresyonu için (bunun sadece bir değişken üzerindeki regresyon için geçerli olup olmadığı bilinmemektedir),

CV(n)=1ni=1n(yiy^i1hi)2
burada "yıolanıen küçük kareler uygun orijinal inci yerleştirilen değeri, (herhangi bir fikri ya bu araçlar, bu arada, bu kullanarak demektüm? Veri kümesinde noktaları) vehikaldıraçtır "hi=1tarafından tanımlanany^iihi
hi=1n+(xix¯)2j=1n(xjx¯)2.

Kişi bunu nasıl kanıtlar?

Benim girişimi: Biri bu fark başlayabilirsin y ı = β 0 + k Σ i = 1 β k X k + derece bazı polinom terimler  çağırmak (ve, söz konusu formül ama bunun dışında saat i sadece basit doğrusal regresyon için doğrudur ...), buradan nasıl ilerleyeceğimi bilmiyorum.

y^i=β0+i=1kβkXk+some polynomial terms of degree 2
hi

Denklemleriniz birden fazla şey için kullanıyor gibi görünüyor veya kafam çok karıştı. Her iki durumda da ek netlik iyi olurdu. i
Glen_b-Monica

@Glen_b Dün LOOCV hakkında öğrendim, bu yüzden bazı şeyleri doğru anlayamayabilirim. Anladığım kadarıyla, gibi bir dizi veri noktanız var . LOOCV ile, her bir sabit (pozitif tamsayı) k için bazı doğrulama seti V k = { ( x k , y k ) } ve her biri için uygun bir model oluşturmak için bir test seti T k = XV k kullanılır.X={(xi,yi):iZ+}kVk={(xk,yk)}Tk=XVk . Örneğin, modelimize üç veri noktası olan basit doğrusal regresyon kullanarak X = { ( 0 , 1 ) , ( 1 , 2 ) , ( 2 , 3 ) } diyelim. (kX={(0,1),(1,2),(2,3)}
Klarnetçi

@ Glen_b ve T 1 = { ( 1 , 2 ) , ( 2 , 3 ) } . Puan kullanma T 1 , basit lineer regresyon kullanılarak, model olsun bulabilirsiniz y i = x + 1 . Daha sonra MSE'yi doğrulama kümesi olarak V 1 kullanarak hesaplıyoruz ve y 1 = 1 alıyoruzV1={(0,1)}T1={(1,2),(2,3)}T1y^i=X+1MSEV1y1=1ve (sadece belirli bir noktaya kullanılarak) y vererek MSE 1 = 0 . Tamam, belki üst simge kullanmak en iyi fikir değildi - bunu orijinal yazıda değiştireceğim. y^1(1)=0+1=1MSE1=0
Klarnetçi

Yanıtlar:


17

Regresörlerin polinomları olup olmadığı çoklu doğrusal regresyonun sonucunu göstereceğim . Aslında, sorduğunuzdan biraz daha fazlasını gösterir, çünkü her LOOCV kalıntısının, sadece (5.2) 'de olduğu gibi LOOCV hatasını elde edebileceğiniz değil, tam regresyondaki ilgili kaldıraç ağırlıklı kalıntı ile aynı olduğunu gösterir. ortalamadaki her terim aynı olmasa bile, ortalamaların kabul edildiği başka yollar olabilir).Xt

Biraz uyarlanmış gösterimi kullanma özgürlüğünü alalım.

İlk göstermektedir Pβ tüm verileri kullanılarak tahmin olan P (t)üzerinden terk ederken tahminX(t), gözlemt. İzin Vermek

β^β^(t)=(u^t1ht)(XX)1Xt,(A)
β^β^(t)X(t)t şekilde bir sıra vektörü olarak tanımlanabilir y t = X t β . U t kalıntılar bulunmaktadır.Xty^t=Xtβ^u^t

Kanıt aşağıdaki matris cebirsel sonucunu kullanır.

Let bir tekil olmayan matris olması b bir vektör ve X bir skaler. Eğer λAbλ Sonra (A+λbb)-1

λ1bA1b
(A+λbb)1=A1(λ1+λbA1b)A1bbA1(B) 

(B) 'nin kanıtı

{A1(λ1+λbA1b)A1bbA1}(A+λbb)=I.

Aşağıdaki sonuç kanıtlamak için yararlıdır (A)

(X(t)X(t))1Xt=(11ht)(XX)1Xt. (C)

(C) 'nin kanıtı: (B)' ye göre, , ( X ( t ) X ( t ) ) - 1t=1TXtXt=XX Böylece (X( t ) X(t))-1Xt

(X(t)X(t))1=(XXXtXt)1=(XX)1+(XX)1XtXt(XX)11Xt(XX)1Xt.
(X(t)X(t))1Xt=(XX)1Xt+(XX)1Xt(Xt(XX)1Xt1Xt(XX)1Xt)=(11ht)(XX)1Xt.

The proof of (A) now follows from (C): As

XXβ^=Xy,
we have
(X(t)X(t)+XtXt)β^=X(t)y(t)+Xtyt,
or
{Ik+(X(t)X(t))1XtXt}β^=β^(t)+(X(t)X(t))1Xt(Xtβ^+u^t).
So,
β^=β^(t)+(X(t)X(t))1Xtu^t=β^(t)+(XX)1Xtu^t1ht,
where the last equality follows from (C).

Now, note ht=Xt(XX)1Xt. Multiply through in (A) by Xt, add yt on both sides and rearrange to get, with u^(t) the residuals resulting from using β^(t) (ytXtβ^(t)),

u^(t)=u^t+(u^t1ht)ht
or
u^(t)=u^t(1ht)+u^tht1ht=u^t1ht

The definition for X(t) is missing in your answer. I assume this is a matrix X with row Xt removed.
mpiktas

Also mentioning the fact that XX=t=1TXtXt would be helpful too.
mpiktas

@mpiktas, yes, thanks for the pointers. I edited to take the first comment into account. Where exactly would the second help? Or just leave it in your comment?
Christoph Hanck

3
When you start the proof of (C) you write (X(t)X(t))1=(XXXtXt)1. That is a nice trick, but I doubt that casual reader is aware of it.
mpiktas

1
Two years later... I appreciate this answer even more, now that I've gone through a graduate-level linear models sequence. I'm re-learning this material with this new perspective. Do you have any suggested references (textbooks?) which go through derivations like what you have in this answer in detail?
Clarinetist
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.