Önyargı-varyans tradeoff hakkında soru


15

Önyargı-varyans dengesini, kestiricinin önyargısı ile modelin önyargısı arasındaki ilişkiyi ve kestiricinin varyansı ile modelin varyansı arasındaki ilişkiyi anlamaya çalışıyorum.

Bu sonuçlara geldim:

  • Tahmincinin önyargısını ihmal ettiğimizde verileri tersine çevirme eğilimindeyiz, yani sadece modelin varyansını ihmal eden modelin yanlılığını en aza indirmeyi amaçladığımızda tahmin edicinin önyargısı da)
  • Tam tersine, tahmin edicinin varyansını ihmal ettiğimizde, yani sadece modelin sapmasını ihmal eden modelin varyansını en aza indirmeyi amaçladığımız verileri (yani başka bir deyişle, yalnızca tahmin edicinin varyansını da dikkate almadan tahmin edicidir).

Çıkarımlar doğru mu?


John, bence Tal Yarkoni ve Jacob Westfall'ın bu makalesini okumaktan zevk alacaksınız - önyargı-varyans ticaretinin sezgisel bir yorumunu sağlıyor : jakewestfall.org/publications/… .
Isabella Ghement

Yanıtlar:


22

İyi sıralama. Belirtildiği gibi, önyargıyı veya sapmayı en aza indirgemek için bilim adamına niyeti ifade ediyorsunuz. Pratikte, modelinizin önyargısını veya varyansını açıkça gözlemleyemezsiniz (eğer yapabilirseniz, gerçek sinyali bilirsiniz, bu durumda bir modele ihtiyacınız olmaz). Genel olarak, modelinizin hata oranını yalnızca belirli bir veri kümesinde gözlemleyebilirsiniz ve çeşitli yaratıcı teknikler kullanarak örnek dışı hata oranını tahmin etmeye çalışırsınız.

Şimdi yok teorik olarak en azından, bu hata oranı önyargı ve varyans açısından ayrılacak olabilir, biliyorum, ama doğrudan herhangi bir özel somut durumda bu dengeyi gözlemlemek mümkün değil. Bu yüzden gözlemlerinizi hafifçe şöyle ifade ederim:

  • Önyargı terimi örneklem dışı hatanın çoğuna katkıda bulunduğunda bir model verilere uygun değildir.
  • Bir model, varyans terimi örneklem dışı hatanın çoğuna katkıda bulunduğunda verilere uygun değildir.

Genel olarak, kesin olarak bilmenin gerçek bir yolu yoktur, çünkü model yanlılığını asla gerçekten gözlemleyemezsiniz. Bununla birlikte, bir durumda veya başka bir durumda olduğunun göstergesi olan çeşitli davranış kalıpları vardır:

  • Overfit modelleri, bir test veri setinde bir egzersiz veri setine kıyasla çok daha iyi uyum performansına sahip olma eğilimindedir.
  • Underfit modelleri, bir test ve eğitim veri setinde benzer uyum performansına sahip olma eğilimindedir.

Bunlar, model karmaşıklığına göre ünlü hata oranlarında ortaya çıkan kalıplardır, bu İstatistiksel Öğrenmenin Unsurlarındandır:

modelComplexity

Çoğu zaman bu araziler bir sapma ve varyans eğrisi ile kaplanır. Bunu bu güzel sergiden aldım :

resim açıklamasını buraya girin

Ancak, herhangi bir gerçekçi durumda bu ek eğrileri asla göremeyeceğinizi fark etmek çok önemlidir .


4

Bir oyuncak örneği kullanarak Sapma - Varyans Tradeoff'unu örnekleme

@ Mathew Drury'un belirttiği gibi, gerçekçi durumlarda son grafiği göremezsiniz, ancak aşağıdaki oyuncak örneği, yararlı bulanlara görsel yorumlama ve sezgi sağlayabilir.

Veri kümesi ve varsayımlar

Y rastgele değişken olarak tanımlanmış

  • Y=sbenn(πx-0.5)+εε~UnbenfÖrm(-0.5,0.5) veya başka bir deyişle
  • Y=f(x)+ε

xYVbirr(Y)=Vbirr(ε)=112

f^(x)=β0+β1x+β1x2+...+βpxp

Çeşitli polinom modellerinin takılması

Sezgisel olarak, veri kümesi açıkça doğrusal olmadığı için düz bir çizgi eğrisinin kötü performans göstermesini beklersiniz. Benzer şekilde, çok yüksek mertebeden bir polinom yerleştirmek aşırı olabilir. Bu sezgi, çeşitli modelleri ve tren ve test verileri için karşılık gelen Ortalama Kare Hatasını gösteren aşağıdaki grafikte yansıtılmaktadır.

resim açıklamasını buraya girin

Yukarıdaki grafik tek bir tren / test bölümü ancak genelleme olup olmadığını nasıl biliyoruz?

Beklenen tren ve test MSE'sinin tahmin edilmesi

Burada birçok seçeneğimiz var, ancak bir yaklaşım verileri rastgele tren / test arasında bölmek - modeli verilen bölmeye sığdırmak ve bu deneyi birçok kez tekrarlamaktır. Ortaya çıkan MSE çizilebilir ve ortalama beklenen hatanın bir tahminidir.

resim açıklamasını buraya girin

Test MSE'nin verilerin farklı tren / test bölümleri için çılgınca dalgalandığını görmek ilginçtir. Ancak ortalamanın yeterince çok sayıda denemeye alınması bize daha iyi güven verir.

Sapmasını gösteren gri noktalı çizgiye dikkat edin Ybaşında hesapladı. Anlaşılmaktadır ortalama Test MSE bu değerin altına asla

 Önyargı - Varyans Ayrışması

As açıkladı Burada MSE 3 ana bileşenden içine ayrılabilir:

E[(Y-f^)2]=σε2+Bbenbirs2[f^]+Vbirr[f^]
E[(Y-f^)2]=σε2+[f-E[f^]]2+E[f^-E[f^]]2

Bizim oyuncak durumda nerede:

  • f ilk veri kümesinden bilinir
  • σε2 üniform dağılımından bilinmektedir ε
  • E[f^] yukarıdaki gibi hesaplanabilir
  • f^ açık renkli bir çizgiye karşılık gelir
  • E[f^-E[f^]]2 ortalamayı alarak tahmin edilebilir

Aşağıdaki ilişkiyi vermek

resim açıklamasını buraya girin

Not: yukarıdaki grafik modele uyacak şekilde egzersiz verilerini kullanır ve MSE'yi tren + testinde hesaplar .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.