Önyargı-varyans ayrışması

Bishop'un Örüntü Tanıma ve Makine Öğreniminin 3.2. Bölümünde , bir kare kaybı fonksiyonu için beklenen kaybın kare şeklinde bir önyargı terimine ayrılabileceğini belirten sapma-varyans ayrışmasını tartışır (bu, ortalama tahminlerin doğrudan ne kadar uzak olduğunu açıklar) model), bir varyans terimi (tahminlerin ortalamanın etrafına yayılmasını tanımlar) ve bir gürültü terimi (verilerin gerçek gürültüsünü verir).

Eğilim-varyans ayrışması, kare kaybı dışındaki kayıp fonksiyonları ile gerçekleştirilebilir mi?
Belirli bir model veri kümesi için, beklenen kaybı tüm modellerde minimum olan birden fazla model var mı ve eğer öyleyse, bu, aynı minimum beklenen kaybı veren farklı yanlılık ve varyans kombinasyonlarının olabileceği anlamına mı geliyor?
Eğer bir model düzenli hale getirmeyi içeriyorsa, önyargı, varyans ve düzenli hale getirme katsayısı arasında matematiksel bir ilişki var mı? $\lambda$
Gerçek modeli bilmiyorsanız önyargıları nasıl hesaplayabilirsiniz?
Beklenen kayıptan ziyade önyargı veya sapmayı en aza indirmenin daha anlamlı olduğu durumlar var mı (kare önyargı ve sapma toplamı)?

— Vivek Subramanian
kaynak

... beklenen [kare hatası] kaybı kare şeklinde bir önyargı terimine (ortalama tahminlerin gerçek modelden ne kadar uzak olduğunu açıklar), bir varyans terimini (tahminlerin ortalamanın etrafına yayılmasını açıklayan) ayrıştırılabilir ve bir gürültü terimi (verilerin gerçek gürültüsünü verir).

Kare hata kaybı ayrışmasına bakıldığında Sadece iki terim görüyorum: biri önyargı için, diğeri tahmin edicinin veya yordayıcının varyansı için, . Beklenen kayıpta ek gürültü terimi yoktur. Değişkenlik, örneğin kendisinin değil, değişkenliğidir .

E_{θ} [(θ - δ (X_{1 : n}))^{2}] = (θ - E_{θ} [δ (X_{1 : n})])^{2} + E_{θ} [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}]

$\mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]=(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\mathbb{E}_\theta[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]$

δ (X_{1 : n})

$\delta(X_{1:n})$

δ (X_{1 : n})

$\delta(X_{1:n})$

Eğilim-varyans ayrışması, kare kaybı dışındaki kayıp fonksiyonları ile gerçekleştirilebilir mi?

Kare yanlılık + varyans ayrışımı [ve bunu öğretme şeklim] hakkındaki yorumum, bunun Pythagore Teoreminin istatistiksel eşdeğeri, yani bir tahminci ile belirli bir kümedeki bir nokta arasındaki kare mesafesinin kare mesafesinin toplamı olduğudur. bir tahminci ile küme arasında, artı kümedeki dikey projeksiyon ile kümenin içindeki nokta arasındaki kare mesafesi. Belirli bir model veri kümesi için bir mesafeye dayalı herhangi bir kayıp, beklenen kaybı tüm modellerde minimum olan birden fazla model var mı ve eğer öyleyse, bu, verimi veren farklı önyargı ve varyans kombinasyonlarının olabileceği anlamına mı geliyor? aynı minimum dikey projeksiyon kaybı, yani bir iç ürün, yani esasen Hilbert uzayları, bu ayrışmayı tatmin eder.

Belirli bir model veri kümesi için, beklenen kaybı tüm modellerde minimum olan birden fazla model var mı ve eğer öyleyse, bu, aynı minimum beklenen kaybı veren farklı yanlılık ve varyans kombinasyonlarının olabileceği anlamına mı geliyor?

Soru belirsiz: Modeller üzerinden minimum olarak, demek istiyorsan , İstatistiksel modeller ve buna bağlı olarak sürekli bir kayıp (veya risk) riski olan ilişkili kararlar . Örneğin, Normal ortalamanın MLE'sini ele alalım.

min_{θ} E_{θ} [(θ - δ (X_{1 : n}))^{2}]

$\min_\theta \mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]$

Gerçek modeli bilmiyorsanız önyargıları nasıl hesaplayabilirsiniz?

Genel anlamda, önyargı, varsayılan dağılım ailesi içindeki gerçek model ile en yakın model arasındaki mesafedir. Gerçek model bilinmiyorsa, önyargı bootstrap ile tespit edilebilir.

Beklenen kayıptan ziyade önyargı veya sapmayı en aza indirmenin daha anlamlı olduğu durumlar var mı (kare önyargı ve sapma toplamı)?

Gibi başka bir kayıp fonksiyonunu dikkate sıfıra iterken değerlendirmenin çoğunu önyargıya koyarken sonsuza geçirir sapmaya odaklanın.

(θ - E_{θ} [δ (X_{1 : n})])^{2} + α [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}] 0 < α

$(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\alpha[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]\qquad 0<\alpha$

α

$\alpha$

α

$\alpha$

— Xi'an
kaynak

OP'nin ifade ettiği gürültü terimi, tahmin edicinin bir parametre için değil , (bağımsız) gürültünün olduğu varsayıldığı modelindeki işlevi için olmasıdır. sıfır ortalama ve varyans . içinde önce sonra ekleme ve çıkarma , söz konusu ayrışma

f

$f$

Y = f (X) + ϵ

$Y = f(X) + \epsilon$

ϵ

$\epsilon$

σ_{ϵ}

$\sigma_\epsilon$

f (X)

$f(X)$

E [\hat{f} (X)]

$E[\hat{f}(X)]$

E [(Y - f (X))^{2} | X = x]

$E[(Y-f(X))^2 | X=x]$

σ_{ϵ}^{2} + {Bias}^{2} \hat{f} (x) + Var \hat{f} (x)

$\sigma^2_\epsilon + \operatorname{Bias}^2 \hat{f}(x) + \operatorname{Var} \hat{f}(x)$

— Miguel

Bu, gerçekçi bir varsayım gibi görünmeyen bağımsız olduğunu varsayar .

\hat{f}

$\hat f$

ϵ

$\epsilon$

— Xi'an

Hmm, elbette haklısın. Ama bence sorun özensiz türevimin bir eseri. Hastie & Tibshirani'nin ESLII

— Miguel

@Miguel: Aslında epsilon'un X'den bağımsız olduğunu varsayıyoruz , . Şahsen ESL'nin (ve diğerlerinin) türetilmesinin titiz olmadığını, dolayısıyla kafa karıştırıcı olduğunu düşünüyorum. Prof Mostafa'nın "Verilerden öğrenme" deki türevi, aradığınız şey veya bu gönderide

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

— bulunması gerekir