Önyargı-varyans tradeoff türevini anlama


20

İstatistiksel öğrenmenin unsurlarının önyargı-varyans dengesi bölümünü okuyorum ve 29. sayfadaki formülde şüphe duyuyorum. Veriler, bir modelden , rasgele olduğu beklenen değere sahip sayı ve Varyans . Modelin hatanın beklenen değeri olsun burada öngörülmesi olup eden öğrencinin. Kitaba göre hata

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( E - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Benim sorum neden önyargı terimi 0 değil? hatanın formülünü geliştirdiğimi görüyorum

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

olarak bağımsız rastgele bir sayıdır2 E [ ( f ( x ) - f k ( x ) ) ϵ ] = 2 E [ ( f ( x ) - f k ( x ) ) ] E [ ϵ ] = 0ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Nerede yanılıyorum?

Yanıtlar:


20

Yanlış değilsiniz, ancak beri bir adımda hata . olduğu .E [ ( f ( x ) - f k ( x ) ) 2 ] MSE ( f k ( x ) ) = V a r ( f k ( x )E[(f(x)fk(x))2]Var(fk(x))E[(f(x)fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Not: E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.


İkili sonuçlar söz konusu olduğunda, hata ölçüsü olarak çapraz entropi ile eşdeğer bir kanıt var mı?
emanuele

1
İkili bir yanıtla çok iyi çalışmaz. "İstatistiksel Öğrenmenin Unsurları" nın ikinci baskısında Örnek 7.2'ye bakınız.
Matthew Drury

3
nasıl gittiğini açıklayabilir misin - ? Var(fk (E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine

16

Önyargı - Varyans ayrışmasının birkaç adımı

Gerçekten de, tam türetme ders kitaplarında nadiren verilir, çünkü pek çok sönük cebir içerir. İşte "İstatistiksel Öğrenmenin Öğeleri" kitabındaki notasyonu kullanarak daha eksiksiz bir türetme sayfa 223


ve ve olduğunu varsayarsak , bir regresyon uyumunun beklenen tahmin hatası için ifadeyi türetebiliriz kare hata kaybı kullanan girişindeY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f ( x ) X, = x 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Notasyonel sadelik için , ve ve olduğunu hatırlayınf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

terimi için, yukarıdaki gibi benzer bir numara kullanabiliriz, elde etmek için ekleyip çıkarabilirizE[(ff^)2]E[f^]

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Bir araya getirmek

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


bazı yorumlarE[f^Y]=fE[f^]

Burada Alecos Papadopoulos'tan alınmıştır

Hatırlatma; biz göre inşa olan belirleyicisidir veri noktası böylece hatırlamak için .f^m{(x(1),y(1)),...,(x(m),y(m))} f = f mf^=f^m

Öte yandan , yukarıdaki veri noktalarında oluşturulan modeli kullanarak yeni bir veri noktası üzerinde yaptığımız tahmindir . Yani Ortalama Kare Hatası şu şekilde yazılabilir:Y(x(m+1),y(m+1))m

E[f^m(x(m+1))y(m+1)]2

Denklemin bir önceki bölümden genişletilmesi

E[f^mY]=E[f^m(f+ε)]=E[f^mf+f^mε]=E[f^mf]+E[f^mε]

Denklemin son kısmı şu şekilde görülebilir:

E[f^m(x(m+1))ε(m+1)]=0

noktası hakkında aşağıdaki varsayımları yaptığımızdan :x(m+1)

  • O edildi değil oluşturarak zaman kullanılırf^m
  • Diğer tüm gözlemlerden bağımsızdır{(x(1),y(1)),...,(x(m),y(m))}
  • bağımsızdırε(m+1)

Tam türevli diğer kaynaklar


1
Neden ? ve nin bağımsız olduğunu düşünmüyorum , çünkü temelde kullanılarak inşa edilmiştir . Y, f f YE[f^Y]=fE[f^]Yf^f^Y
Felipe Pérez

5
Ama soru aslında aynı, neden ? rastgele hata hata geliyor bu yüzden ve neden bağımsız olacağını ve bu nedenle . f ε f ε E ( f ε ) = 0E[f^ε]=0f^εf^εE(f^ε)=0
Felipe Pérez

Kesinliğinizden, örnek içi ve örnek dışı perspektifin çok önemli olduğu görülmektedir. Bu yüzden bu? Örneklemde sadece çalışmak ve o zaman, bakınız artık önyargı varyans olarak ortadan değiş tokuş? ε
markowitz

1
@ FelipePérez anladığım kadarıyla, nin rastgele olması , tren-test bölünmesinden (puanlar eğitim setinde sona ermiş ve eğitimli öngörücü olarak vermiştir ) geliyor. Başka bir deyişle, varyansı, belirli bir sabit veri kümesinin eğitim seti olarak alabileceğimiz tüm olası alt kümelerinden gelir. Veri kümesi sabit olduğundan, epsilon'dan gelen herhangi bir rastgelelik yoktur ve bu nedenle ve bağımsızdır. f f ε f εf^f^f^εf^ε
Alberto Santini
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.