Beklenen tahmin hatası - türetme


20

Özellikle 2.11 ve 2.12 türetilmesinde (şartlandırma, minimum noktaya doğru adım), aşağıda tahmin edilen tahmin hatasının (ESL) türetilmesini anlamak için uğraşıyorum. Herhangi bir işaretçi veya bağlantılar çok takdir.

Aşağıda ESL s. 18. İlk iki denklem sırasıyla 2.11 ve 2.12 denklemleridir.


Let gerçek değerli rasgele giriş vektörü ve göstermektedirler ortak dağılım gerçek bir değerli rasgele çıkış değişkeni, . Bir fonksiyon, arama tahmin etmek için girişi verilen değerleri . Bu teori, tahminlerdeki hataları cezalandırmak için bir kayıp fonksiyonu gerektirir ve en yaygın ve kullanışlı kare hata kaybıdır : . Bu bizi seçmek için bir kritere götürüyor ,XRpYRPr(X,Y)f(X)YX L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

beklenen (kare) tahmin hatası. X üzerinde koşullandırma yaparak EPE'yi

EPE(f)=EXEY|X([Yf(X)]2|X)

ve EPE'yi en aza indirmenin yeterli olduğunu görüyoruz:

f(x)=argmincEY|X([Yc]2|X)

Çözüm şudur

f(x)=E(Y|X=x)

regresyon fonksiyonu olarak da bilinen koşullu beklenti .


Değiştirme ve Vikipedi'ye ilk denklemde Toplam Beklenti Kanunun denkliği (2.9) ve (2.11) verir. İspat için bu makaleyi okuyun. (2.12), EPE'yi en aza indirgemek için seçileceği anlayışının hemen üzerindedir . Y fXYf
whuber


2
Bu kitabı da okuyanlar için Weathermax ve Epstein
Dodgie

@Dodgie Bu bağlantı öldü: (
Matthew Drury

2
@MatthewDrury Neyse ki "Weathermax ve Epstein istatistikleri" nin googling'i ilk sonuç olarak bir bağlantı döndürdü;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/…
Dodgie

Yanıtlar:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
Ne yazdığınızı anlıyorum, ancak OP'nin soruda gösterilen türetme ile karıştırılıp karıştırılmadığını, cevabınızı anlayacağını düşünüyor musunuz? elbette, soruda gösterilen türetmeyi zaten anladım.
Mark L. Stone

Ben aynı soru ile google burada var ve aslında bu türev tam olarak ihtiyacım olanı bulmak.
Noktalı virgüller ve Koli bandı

1
@ MarkL.Stone - bu aptalca bir soru olabilir, ancak ile ne kastedildiğini ve haline nasıl geldiğini misiniz? Teşekkürler bir grupp ( x , y ) d x d yPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte

1
Birincisi ile kastedilen ikincisidir. Bunun yerine dP (x, y) veya dF (x, y) kullanmanın daha yaygın olduğunu düşünüyorum. 1D'de, dF (x) 'nin f (x) dx anlamına geldiğini göreceksiniz, burada f (x) olasılık yoğunluk fonksiyonudur, ancak gösterim ayrıca ayrı olasılık kütle fonksiyonuna (toplamda) veya hatta bir karışımına izin verebilir. sürekli yoğunluk ve ayrık olasılık kütlesi.
Mark L. Stone

(Son formül) demek daha kesin olmaz mıydı ? EX(EY|X([Yf(X)]2|X=x))
D1X

12

Denklem (2.11) aşağıdaki küçük eşitliğin bir sonucudur. Herhangi iki rastgele değişken ve ve herhangi bir fonksiyonu içinZ 2 gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

notasyonu , ortak dağıtım beklentisidir . Notasyonu esasen "koşullu dağılımı üzerinde entegre diyor sanki giderildi".EZ1,Z2 Z 1 Z 2EZ1Z2Z1Z2

ve sadece ilgili tanımları ayrı rastgele değişkenler olması durumunda bunu doğrulamak kolaydırZ 2Z1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

Sürekli vaka ya gayri resmi olarak bu argümanın bir limiti olarak görülebilir ya da tüm ölçü teorik günlükleri yerine getirildikten sonra resmi olarak doğrulanabilir.

Uygulamayı için , ve . Her şey tam olarak sıralanıyor.Z1=YZ2=Xg(x,y)=(yf(x))2

İddia (2.12) bizden asgariye indirmeyi düşünmemizi istiyor

EXEYX(Yf(X))2

burada istediğimiz gibi seçmekte özgürüz . Yine, ayrı bir konuya odaklanıp, yukarıdaki gevşemenin yarısına düştüğümüzde,f

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Büyük parantez içindeki her şey negatif değildir ve toplamları ayrı ayrı minimize ederek negatif olmayan miktarların toplamını en aza indirebilirsiniz. Bağlamda bu , en aza indirmek için seçebileceğimiz anlamına gelir.f

y(yf(x))2Pr(Y=yX=x)

her ayrık değeri için ayrı ayrı . Bu, ESL'nin iddia ettiği şeyin içeriği, sadece meraklı gösterimiyle.x


8

Bu kitaptaki bazı kısımları, özellikle istatistik konusunda güçlü bir geçmişi olmayanlar için anlaşılması zor bir şekilde ifade ediyorum.

Basitleştirmeye çalışacağım ve karışıklıktan kurtulabileceğinizi umuyorum.

İstem 1 (Düzeltme) E(X)=E(E(X|Y)),X,Y

İspat : E (Y) sabittir ancak E (Y | X) X'e bağlı olarak rastgele bir değişkendir.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Talep 2 :E(Yf(X))2E(YE(Y|X))2,f

İspat :

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Yukarıdaki denklemin her iki tarafının da beklentisi olması, İstem 2'yi (QED) verir

Bu nedenle, optimal ff(X)=E(Y|X)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.