Yanıtlar:
Önyargı, tahmin edicinin beklenen değeri ile tahmin edilen gerçek değer arasındaki farktır. Örneğin, basit bir rastgele örneklem (SRS) için örnek ortalama, popülasyon ortalamasının tarafsız bir tahmincisidir, çünkü eğer mümkün olan tüm SRS'lerin araçlarını bulursanız ve bu araçların ortalamasını alırsanız, popülasyon ortalamasını elde edersiniz (sonlu için popülasyonlar bu sadece bunu göstermek için cebirdir). Ancak, bir şekilde değerle ilgili olan bir örnekleme mekanizması kullanırsak, ortalama önyargılı hale gelebilir, gelir hakkında bir soru soran rasgele bir rakamlı bir çevirme örneği düşünün.
Aynı zamanda doğal olarak önyargılı olan bazı tahmin edicilerdir. Kırpılan ortalama, çarpık bir popülasyon / dağılım için önyargılı olacaktır. SRS'lerde standart değişkenlik ya popülasyon ortalığı ya da örnek ortalaması n - 1 ile kullanılıyorsa .
Burada R kullanarak basit bir örnek, ortalama 0 ve standart sapma 1 olan normal bir grup numune üretiyoruz, ardından numunelerden ortalama ortalamayı, varyansı ve standart sapmayı hesaplıyoruz. Ortalama ve varyans ortalamalarının gerçek değerlere ne kadar yakın olduğuna dikkat edin (örnekleme hatası kesin olmayacak anlamına gelir), şimdi ortalama sd'yi karşılaştırın, önyargılı bir tahmin edicidir (derece önyargılı olmasa da).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
Regresyonda kademeli regresyon yaparak eğimli tahmin edicileri alabiliriz. Tahmini eğim 0'dan daha fazlaysa bir değişkenin kademeli bir regresyonda tutulması ve 0'a yakın olması durumunda düşmesi daha muhtemeldir, bu nedenle önyargılı örneklemedir ve son modeldeki eğimler daha fazla olma eğilimindedir. 0'dan gerçek eğimden. Kement ve sırt regresyon yanlılığı gibi teknikler, seçim yanlılığını 0'dan uzak tutmak için 0'a doğru eğimlidir.
Önyargı, tahmin edicinin beklenen değerinin popülasyon parametresine eşit olmadığı anlamına gelir.
Sezgisel olarak bir regresyon analizinde bu, parametrelerden birinin tahmininin çok yüksek veya çok düşük olduğu anlamına gelir. Bununla birlikte, sıradan en küçük kareler regresyon tahminleri, en iyi doğrusal yansız tahmin edicileri temsil eden BLUE'dur. Diğer regresyon biçimlerinde parametre tahminleri yanlı olabilir. Bu iyi bir fikir olabilir, çünkü genellikle önyargı ile varyans arasında bir sapma vardır. Örneğin, sırt regresyonu bazen, eşliklilik olduğunda tahminlerin farklılığını azaltmak için kullanılır.
Basit bir örnek, regresyon bağlamında olmasa da, bunu daha iyi gösterebilir. 150 kilo ağırlığınızı varsayalım (bir sepette ve diğer sepette bir ağırlık yığını bulunan bir terazide doğrulanmıştır). Şimdi, iki banyo tartı var. Her biri için 5 kez tartarsın.
Ölçek 1, 152, 151, 151.5, 150.5 ve 152 ağırlıklarını vermektedir.
Ölçek 2, 145, 155, 154, 146 ve 150 ağırlıklarını vermektedir.
Skala 1 önyargılıdır ancak daha düşük varyansa sahiptir; ağırlıkların ortalaması sizin gerçek kilonuz değildir. Ölçek 2 tarafsızdır (ortalama 150), ancak çok daha yüksek varyansa sahiptir.
Hangi ölçek "daha iyi"? Ölçeğin ne yapmasını istediğinize bağlıdır.
Doğrusal regresyon analizinde yanlılık, daha basit bir modelle karmaşık olabilecek gerçek yaşam problemine yaklaşmaktan kaynaklanan hatayı gösterir. Basit bir ifadeyle, y * = (a *) x + b * gibi basit bir doğrusal model varsayarsınız; burada gerçek hayatta olduğu gibi işletme problemi y = ax ^ 3 + bx ^ 2 + c olabilir.
Bir regresyon probleminden beklenen MSE testinin (Ortalama karesel hata) aşağıdaki gibi ayrılabileceği söylenebilir. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Önyargı (f * (x0))] ^ 2 + Var (e)
f * -> lineer regresyon modeli için varsayılan işlevsel form y0 -> test verisine kaydedilen orijinal yanıt değeri x0 -> test verisine kaydedilen orjinal öngörü değeri e -> indirgenemez hata Bu nedenle, amaç bir modele ulaşmak için en iyi yöntemi seçmektir. düşük varyans ve düşük önyargı sağlar.
Not: Trevor Hastie ve Robert Tibshirani tarafından İstatistiksel Öğrenmeye Giriş bu konuda iyi bir görüşe sahip