Sezgisel olan “önyargı” nedir?

Önyargı kavramını doğrusal regresyon analizi bağlamında kavramak için mücadele ediyorum.

Önyargının matematiksel tanımı nedir?
Önyargı tam olarak nedir ve neden / nasıl?
Açıklayıcı örnek?

— Fabian
kaynak

Yanıtlar:

Önyargı, tahmin edicinin beklenen değeri ile tahmin edilen gerçek değer arasındaki farktır. Örneğin, basit bir rastgele örneklem (SRS) için örnek ortalama, popülasyon ortalamasının tarafsız bir tahmincisidir, çünkü eğer mümkün olan tüm SRS'lerin araçlarını bulursanız ve bu araçların ortalamasını alırsanız, popülasyon ortalamasını elde edersiniz (sonlu için popülasyonlar bu sadece bunu göstermek için cebirdir). Ancak, bir şekilde değerle ilgili olan bir örnekleme mekanizması kullanırsak, ortalama önyargılı hale gelebilir, gelir hakkında bir soru soran rasgele bir rakamlı bir çevirme örneği düşünün.

Aynı zamanda doğal olarak önyargılı olan bazı tahmin edicilerdir. Kırpılan ortalama, çarpık bir popülasyon / dağılım için önyargılı olacaktır. SRS'lerde standart değişkenlik ya popülasyon ortalığı ya da örnek ortalaması ile kullanılıyorsa . $n$ $n-1$

Burada R kullanarak basit bir örnek, ortalama 0 ve standart sapma 1 olan normal bir grup numune üretiyoruz, ardından numunelerden ortalama ortalamayı, varyansı ve standart sapmayı hesaplıyoruz. Ortalama ve varyans ortalamalarının gerçek değerlere ne kadar yakın olduğuna dikkat edin (örnekleme hatası kesin olmayacak anlamına gelir), şimdi ortalama sd'yi karşılaştırın, önyargılı bir tahmin edicidir (derece önyargılı olmasa da).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

Regresyonda kademeli regresyon yaparak eğimli tahmin edicileri alabiliriz. Tahmini eğim 0'dan daha fazlaysa bir değişkenin kademeli bir regresyonda tutulması ve 0'a yakın olması durumunda düşmesi daha muhtemeldir, bu nedenle önyargılı örneklemedir ve son modeldeki eğimler daha fazla olma eğilimindedir. 0'dan gerçek eğimden. Kement ve sırt regresyon yanlılığı gibi teknikler, seçim yanlılığını 0'dan uzak tutmak için 0'a doğru eğimlidir.

— Greg Snow
kaynak

SRS?

$\text{ }$

— kardinal

@ cardinal Basit Rastgele Örnek.

— whuber

@whuber: Vay canına. Kısaltma mantıklı olsa da, daha resmi bir ortamda rastladığımı hatırlamıyorum. Bunun “standart” bir ilkçilik olduğu belirli alt alanlar veya uygulamalı alanlar var mı?

— kardinal

@cardinal Bakınız en.wikipedia.org/wiki/Simple_random_sample

— whuber

(+1) @ whuber'ın düzenlemesi bu cevabı netleştirmede yardımcı oldu.

— kardinal

Önyargı, tahmin edicinin beklenen değerinin popülasyon parametresine eşit olmadığı anlamına gelir.

Sezgisel olarak bir regresyon analizinde bu, parametrelerden birinin tahmininin çok yüksek veya çok düşük olduğu anlamına gelir. Bununla birlikte, sıradan en küçük kareler regresyon tahminleri, en iyi doğrusal yansız tahmin edicileri temsil eden BLUE'dur. Diğer regresyon biçimlerinde parametre tahminleri yanlı olabilir. Bu iyi bir fikir olabilir, çünkü genellikle önyargı ile varyans arasında bir sapma vardır. Örneğin, sırt regresyonu bazen, eşliklilik olduğunda tahminlerin farklılığını azaltmak için kullanılır.

Basit bir örnek, regresyon bağlamında olmasa da, bunu daha iyi gösterebilir. 150 kilo ağırlığınızı varsayalım (bir sepette ve diğer sepette bir ağırlık yığını bulunan bir terazide doğrulanmıştır). Şimdi, iki banyo tartı var. Her biri için 5 kez tartarsın.

Ölçek 1, 152, 151, 151.5, 150.5 ve 152 ağırlıklarını vermektedir.

Ölçek 2, 145, 155, 154, 146 ve 150 ağırlıklarını vermektedir.

Skala 1 önyargılıdır ancak daha düşük varyansa sahiptir; ağırlıkların ortalaması sizin gerçek kilonuz değildir. Ölçek 2 tarafsızdır (ortalama 150), ancak çok daha yüksek varyansa sahiptir.

Hangi ölçek "daha iyi"? Ölçeğin ne yapmasını istediğinize bağlıdır.

— Peter Flom - Monica'yı yeniden
kaynak

Önyargı tanımı doğru olmasına rağmen, örneklerin onu tamamen farklı bir şey olan yanlışlıkla karıştırmasından korkuyorum! Önyargı, istatistiksel bir işlemin (tahmin edici) bir özelliğidir; doğruluk ise bir ölçüm işleminin özelliğidir . (1).

— whuber

@ whuber: Evet, buna katılıyorum. Ve hala, bununla birlikte, matematiksel beklenti ve örnekleme ortalaması arasındaki farkı, önyargı ile ilgili olarak netleştirmenin gerekli olduğunu düşünüyorum.

— kardinal

Hayır, “yanlışlık” (tanımlanması oldukça zor olan) hakkında ancak “sapma” hakkında bir şey söylemeye çalışmıyordum. Bir ölçek tarafsız, diğer ölçek düşük varyansa sahip. "Doğru" ya da "doğruluk" kelimesini kullanmadım. Kilonuzu çok yüksek (veya çok düşük) tahmin etmeye meyilli bir ölçek önyargılıdır.

— Peter Flom - Reinstate Monica

Ancak bu "önyargı" duygusu sadece yanlış olanın eş anlamlısıdır; ilk satırda verdiğiniz tanımla aynı değildir. Dahası, @ cardinal'in işaret ettiği gibi, örnek ayrıca belirli bir numunenin ortalaması ile ilgili bir beklenti uyandırır.

— whuber

@Whuber ile aynı fikirdeyim. OP'nin sorduğu (uygun) önyargı anlamında , önyargılı ya da tarafsız olan ölçek değil , ölçülerinden elde ettiğiniz ağırlığın tahmini ne olursa olsun!

— kardinal

Doğrusal regresyon analizinde yanlılık, daha basit bir modelle karmaşık olabilecek gerçek yaşam problemine yaklaşmaktan kaynaklanan hatayı gösterir. Basit bir ifadeyle, y * = (a *) x + b * gibi basit bir doğrusal model varsayarsınız; burada gerçek hayatta olduğu gibi işletme problemi y = ax ^ 3 + bx ^ 2 + c olabilir.

Bir regresyon probleminden beklenen MSE testinin (Ortalama karesel hata) aşağıdaki gibi ayrılabileceği söylenebilir. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Önyargı (f * (x0))] ^ 2 + Var (e)

f * -> lineer regresyon modeli için varsayılan işlevsel form y0 -> test verisine kaydedilen orijinal yanıt değeri x0 -> test verisine kaydedilen orjinal öngörü değeri e -> indirgenemez hata Bu nedenle, amaç bir modele ulaşmak için en iyi yöntemi seçmektir. düşük varyans ve düşük önyargı sağlar.

Not: Trevor Hastie ve Robert Tibshirani tarafından İstatistiksel Öğrenmeye Giriş bu konuda iyi bir görüşe sahip

— ganga
kaynak

Bu, genellikle kabul edilen cevapta verilen standart önyargı tanımıyla karıştırmamak için "model yanlış-spesifikasyon hatası" gibi bir şeyle ifade edilir. Aksi takdirde , OLS'nin regresörlerin katsayılarının tarafsız bir tahmincisi olduğu (doğru) iddiasını anlamamız imkansız olacaktır .

— whuber