Denklem (2.11) aşağıdaki küçük eşitliğin bir sonucudur. Herhangi iki rastgele değişken ve ve herhangi bir fonksiyonu içinZ 2 gZ1Z2g
EZ1,Z2(g(Z1,Z2))=EZ2(EZ1∣Z2(g(Z1,Z2)∣Z2))
notasyonu , ortak dağıtım beklentisidir . Notasyonu esasen "koşullu dağılımı üzerinde entegre diyor sanki giderildi".EZ1,Z2 Z 1 Z 2EZ1∣Z2Z1Z2
ve sadece ilgili tanımları ayrı rastgele değişkenler olması durumunda bunu doğrulamak kolaydırZ 2Z1Z2
EZ2(EZ1∣Z2(g(Z1,Z2)∣Z2))=EZ2(∑z1g(z1,Z2)Pr(Z1=z1∣Z2))=∑z2(∑z1g(z1,z2)Pr(Z1=z1∣Z2=z2))Pr(Z2=z2)=∑z1,z2g(z1,z2)Pr(Z1=z1∣Z2=z2)Pr(Z2=z2)=∑z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))
Sürekli vaka ya gayri resmi olarak bu argümanın bir limiti olarak görülebilir ya da tüm ölçü teorik günlükleri yerine getirildikten sonra resmi olarak doğrulanabilir.
Uygulamayı için , ve . Her şey tam olarak sıralanıyor.Z1=YZ2=Xg(x,y)=(y−f(x))2
İddia (2.12) bizden asgariye indirmeyi düşünmemizi istiyor
EXEY∣X(Y−f(X))2
burada istediğimiz gibi seçmekte özgürüz . Yine, ayrı bir konuya odaklanıp, yukarıdaki gevşemenin yarısına düştüğümüzde,f
∑x(∑y(y−f(x))2Pr(Y=y∣X=x))Pr(X=x)
Büyük parantez içindeki her şey negatif değildir ve toplamları ayrı ayrı minimize ederek negatif olmayan miktarların toplamını en aza indirebilirsiniz. Bağlamda bu , en aza indirmek için seçebileceğimiz anlamına gelir.f
∑y(y−f(x))2Pr(Y=y∣X=x)
her ayrık değeri için ayrı ayrı . Bu, ESL'nin iddia ettiği şeyin içeriği, sadece meraklı gösterimiyle.x