Eğilim-Varyans denkleminin matematiksel sezgisi


12

I son sorulan bir soru : Numune ortalama ve varyans ilgili temel denklem arkasında bir matematiksel yorumu / sezgi arayan , geometrik ya da başka şekilde.E[X2]=Var(X)+(E[X])2

Ama şimdi yüzeysel olarak benzer yanlılık-varyans tradeoff denklemini merak ediyorum.

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2
( Wikipedia'dan formüller )

Bana göre regresyon için önyargı-varyans tolerans denklemi ile yüzeysel bir benzerlik var: üç kare ve iki kare diğerine ekleniyor. Çok Pisagor görünümlü. Tüm bu öğeler için diklik de dahil olmak üzere benzer bir vektör ilişkisi var mı? Veya ilgili başka matematiksel yorumlamalar var mı?

Işık tutabilecek diğer matematiksel nesnelerle matematiksel bir benzetme arıyorum. Burada iyi anlaşılan doğruluk-hassas benzetmesini aramıyorum. Ancak insanların önyargı-varyans dengesi ile çok daha temel ortalama-varyans ilişkisi arasında verebilecek teknik olmayan analojiler varsa, bu da harika olurdu.

Yanıtlar:


12

Benzerlik yüzeysel olmaktan daha fazlasıdır.

"Sapma varyans dengesi", iki dikey Öklid vektörüne uygulanan Pisagor Teoremi olarak yorumlanabilir: birinin uzunluğu standart sapma, diğerinin uzunluğu ise sapmadır. Hipotenüsün uzunluğu, kök ortalama kare hatasıdır.

Temel bir ilişki

Bir çıkış noktası olarak, sonlu ikinci moment ve herhangi bir gerçek sayı olan herhangi bir rastgele değişken için geçerli olan bu açığa çıkarma hesaplamasını düşünün . İkinci momenti sonlu olduğu, bir sonlu ortalama sahiptir olan , neredena X μ = E ( X ) E ( X - μ ) = 0XaXμ=E(X)E(Xμ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

Bu görüntüleme yöntemi arasındaki ortalama kare sapma, ve herhangi bir "taban" değeri göre değişir : bunun ikinci dereceden bir fonksiyonu olan de en az ortalama karesi sapma varyansını, .a a a μ XXaaaμX

Tahmin ediciler ve önyargı ile bağlantı

Herhangi bir tahminci rastgele bir değişkendir, çünkü (tanım gereği) rastgele değişkenlerin (ölçülebilir) bir fonksiyonudur. O rolü oynamak Letting önceki ve icar içinde estimand (şey olması tahmin gerekiyordu) Elimizdeki, x θ θθ^Xθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

Şimdi dönelim, bir tahminci için önyargı + varyans hakkındaki ifadenin tam olarak in bir örneği olduğunu gördük . Soru "matematiksel nesnelerle matematiksel analojiler" istiyor. Bundan daha fazlasını yapabiliriz ki, kareye entegre rastgele değişkenler doğal olarak Öklid uzayına dönüştürülebilir.(1)(1)

Matematik arka plan

Çok genel anlamda, rastgele bir değişken olasılık uzayında ölçülebilir) gerçek değerli bir fonksiyondur . Genellikle (verilen olasılık yapısı anlaşıldığı gibi) ile yazılan kare ile bütünleştirilebilen bu tür fonksiyonlar kümesi neredeyse bir Hilbert alanıdır. Birine bunu yapmak için, herhangi iki rasgele değişkenlerini bir araya zorunda ve gerçekten entegrasyon açısından farklılık yoktur:, diyebiliriz ve olan eşdeğer olduğunda(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

Bunun gerçek bir denklik ilişkisi olup olmadığını kontrol etmek kolaydır: en önemlisi, , eşit ve , eşit olduğunda , zorunlu olarak , eşit olacaktır . Bu nedenle, tüm kareye entegre rastgele değişkenleri denklik sınıflarına ayırabiliriz. Bu sınıflar kümesini oluşturur . Dahası, , noktasal değer ekleme ve noktasal skaler çarpma ile tanımlanan vektör uzay yapısını devralır . Bu vektör uzayda, fonksiyonXYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

sıklıkla yazılmış bir normdur . Bu norm, Hilbert boşluğuna dönüştürür . Hilbert uzayını "sonsuz boyutlu Öklid uzayı" olarak düşünün . Herhangi bir sonlu boyutlu altuzay , ve normu devralır ve bu norm ile Öklid uzaydır: içinde Öklid geometrisi yapabiliriz.||X||2L2(Ω)HVHHV

Son olarak, olasılık uzaylarına özel bir gerçeğe ihtiyacımız var (genel ölçü uzaylarından ziyade): bir olasılık olduğundan, ( ) sınırlıdır, bu nedenle sabit fonksiyonlar (herhangi biri için) sabit gerçek sayı ) sonlu normlara sahip kare ile entegre rastgele değişkenlerdir.P1ωaa

Geometrik bir yorum

içindeki denklik sınıfının bir temsilcisi olarak düşünülen, kare ile bütünleşebilen rastgele değişken düşünün . Ortalama bir vardır (ki bu kontrol edilebilir) sadece denklik sınıfına bağlıdır . Let olacak sabit bir rastgele değişkenin sınıfı.XL2(Ω)μ=E(X)X1:ω1

X ve boyutu en fazla olan bir Öklid alt uzay . Bu alt boşlukta, , kare uzunluğudur ve , sabit rasgele değişkeninin kare uzunluğu . Esastır olan dik, . ( bir tanımı, durumun benzersiz olduğu sayıdır.) İlişki yazılabilir1VL2(Ω)2||X||22=E(X2)X||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

Gerçekten de öyle hassas 2500 yıl önce bilinen temelde aynı formda, Pisagor Teoremi. Nesne ayaklı bir dik üçgen hipotenüsüdür ve .

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

Eğer matematiksel analojiler istiyorsanız, Öklid uzayında sağ üçgenin hipotenüsü cinsinden ifade edilebilecek herhangi bir şey kullanabilirsiniz. Hipotenüs "hatayı" temsil eder ve bacaklar önyargıyı ve ortalamadan sapmaları temsil eder.


Mükemmel. Dolayısıyla, akıl yürütme önceki sorumla neredeyse aynıdır. . O zaman bunlar arasında bir benzetme var, değil mi? Sezgisel olarak önyargının manasına benzediği anlaşılıyor. Ve genelleme, ortalama, 0'a göre 1. momenttir, ancak yanlılık, bir parametrenin gerçek değeri ile ilgilidir. Kulağa doğru geliyor mu? Var=EX2(EX)2
Mitch

Evet - bu (geometrik yorumlama tarafından eklenen bir içgörüdür), bu şeyleri ölçmenin doğru yolunun kareler açısından olmasıdır.
whuber

Bu yüzden, bununla ilgili bir sorum var. Herhangi bir makine öğrenimi için, "örnek boyutunu büyütürsek, asimptotik olarak tarafsız bir tahmin edicinin varyansı sıfıra gider" ve "model karmaşıklığını artırırsak, bu nedenle düşük önyargıya ve yüksek varyansa sahip oluruz" şeklinde bu iki kavram var. . Bu nedenle, daha fazla hesaplama gücünün önyargıyı azaltacak, ancak varyansı artıracak daha fazla karmaşıklığa izin verdiğini söyleyebilir miyim. Ancak asimptotik altında, varyanstaki bu artış dengelenecektir.
ARAT

@Mustafa Bazı güçlü varsayımlar yaparsınız. Birincisi, bir numunenin rastgele ve (en azından yaklaşık olarak) bağımsız olmasıdır - ML uygulamalarında genellikle durum böyle değildir. Model karmaşıklığının artırılmasıyla ilgili sonuçlar genellikle doğru değildir, çünkü “karmaşıklığın artması” modeli değiştirdiğinizi ima eder ve bu, tahmin edicinizin tahmin ettiği şeyin anlamını ve bu tahmincinin tahminiyle nasıl ilişkili olabileceğini sorgular. . Artan model karmaşıklığının, önyargı veya varyans üzerinde genel olarak öngörülebilir bir etkisi olması gerekmez.
whuber

4

Bu, doğruluk ve varyans önyargısı hakkında görsel olarak düşünmenin bir yoludur. Bir hedefe baktığınızı ve hedefin merkezine yakın bir şekilde dağılmış şekilde, önyargı olmayacak şekilde birçok çekim yaptığınızı varsayalım. Daha sonra doğruluk sadece varyansla belirlenir ve varyans küçük olduğunda atıcı doğrudur.

Şimdi büyük bir hassasiyet ancak büyük önyargıların olduğu bir durumu ele alalım. Bu durumda çekimler merkezden uzak bir nokta etrafında dağılmıştır. Bir şey hedef noktasını karıştırıyor, ancak bu hedef noktasının etrafında her atış bu yeni hedef noktasına yakın. Atıcı önyargı nedeniyle kesin fakat çok yanlış.

Küçük önyargı ve yüksek hassasiyet nedeniyle çekimlerin doğru olduğu başka durumlar da vardır. İstediğimiz şey yanlılık ve küçük sapma veya küçük sapmalı küçük sapmadır. Bazı istatistiksel problemlerde her ikisine birden sahip olamazsınız. Dolayısıyla MSE, varyans önyargı ticaretini ortadan kaldıran kullanmak istediğiniz doğruluk ölçüsü haline gelir ve MSE'yi minimuma indirmek hedef olmalıdır.


Mükemmel sezgisel açıklama, sapma varyans ve doğruluk hassasiyeti benzetmesi. Ayrıca Pisagor Teoremi gibi matematiksel bir yorum arıyorum.
Mitch

1
Buna odaklanmadım çünkü geometrik yorumu tartışan başka bir yazıya kaplanmıştı. Bağlantıyı sizin için bulacağım.
Michael R.Chickick

@Mitch "Sapma varyans tradeoff" araması CV sitesinde 134 sonuç verdi. Pisagor Teoremini henüz bulamadım ama bu gerçekten iyi ve bu yazı üzerinde tartıştığım hedeflerin bir resmi var. "Önyargı-varyans dengesinin sezgisel açıklaması".
Michael R. Chernick

Aradığım kişiyi 5 Ocak 2017'den itibaren Var (X) = E [ ] - ( E [ X ] ) 2X2E[X])2
sezgisi

@Mitch Aradığım soruyu yayınladığının farkında değildim.
Michael R.Chickick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.