En küçük kareler ne zaman kötü bir fikir olurdu?

Bir regresyon modelim varsa: burada ve ,

Y = X β + ε

$Y = X\beta + \varepsilon$

V [ε] = I d \in R^{n \times n}

$\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}$

E [ε] = (0, \dots, 0)

$\mathbb{E}[\varepsilon]=(0, \ldots , 0)$

ne zaman kullanarak ediyorum , en küçük kareler tahmincisi ait , bir tahmincisi için kötü bir seçim olabilir? $\beta_{\text{OLS}}$ $\beta$

En küçük kareler kötü çalışıyor bir örnek anlamaya çalışıyorum. Bu yüzden önceki hipotezi tatmin eden ancak kötü sonuçlar veren hataların bir dağılımını arıyorum. Dağılımın ailesi ortalama ve varyansla belirlenirse, bu harika olurdu. Değilse, sorun da yok.

"Kötü sonuçlar" ın biraz belirsiz olduğunu biliyorum, ama bence bu fikir anlaşılabilir.

Sadece karışıklıklardan kaçınmak için, en küçük karelerin optimal olmadığını ve sırt regresyonu gibi daha iyi tahmincilerin olduğunu biliyorum. Ama hedeflediğim bu değil. Bir örnek istiyorum en az kareler doğal olmayan olurdu.

Hata vektörü dışbükey olmayan bir bölgede yaşıyor gibi düşünebilirim , ama bundan emin değilim. $\epsilon$ $\mathbb{R}^n$

Düzenleme 1: Bir cevaba yardımcı olmak için bir fikir olarak (daha fazla nasıl ilerleyeceğimizi anlayamıyorum). MAVİ. Dolayısıyla, doğrusal bir tarafsız tahmincinin ne zaman iyi bir fikir olmayacağını düşünmek yardımcı olabilir. $\beta_{\text{OLS}}$

Düzenleme 2: Brian'ın işaret ettiği gibi, kötü koşullandırılmışsa, varyans çok büyük olduğu için kötü bir fikirdir ve bunun yerine Ridge Regresyon kullanılmalıdır. Ben daha az kareler kötü çalışmak için hangi dağıtım gerektiğini bilmek daha ilgileniyorum . $XX'$ $\beta_{\text{OLS}}$ $\varepsilon$

$\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilon$ orada sıfır ortalama ve kimlik varyans matrisi ile bir dağıtım Bu tahmin verimli değildir nedir? $\varepsilon$

regression distributions least-squares

— Manuel
kaynak

Sert olmak istemiyorum, ama ne istediğinden tam olarak emin değilim. Bir şey kötü bir seçim olabilir birçok yolu vardır. Tipik olarak, tahmin edicileri sapma , sapma , sağlamlık ve verimlilik gibi şeyler açısından değerlendiririz . Örneğin, not ettiğiniz gibi, OLS tahmincisi MAVİ'dir .

— gung - Monica'yı eski

OTOH, varyans işe yaramayacak kadar büyük olabilir, bu da daha düşük bir varyans ancak sırt gibi önyargılı bir tahmin ediciyi tercih edilebilir kılar. Başka bir örnek, OLS'nin verilerinizdeki tüm bilgileri maksimum düzeyde kullanmasıdır, ancak bu, aykırı değerlere karşı hassas olmasını sağlar. Verimliliği korumaya çalışırken daha sağlam birçok alternatif kayıp fonksiyonu vardır. Sorunuzu bu şekilde yeniden çerçeveleyebiliyorsanız daha açık olabilir. Bir tahmincinin "doğal olmayan" olmasının ne anlama geldiğini bilmiyorum.

— gung - Monica'yı eski

Yorumunuz için teşekkürler, bu sorunun belirsizliğini fark etmemi sağladı. Umarım şimdi daha açıktır

— Manuel

Bu cevaptaki gerilemeye bakın . Kısacası: Etkili aykırı değerler sorun olabilir.

— Glen_b -Monica

Yanıtlar:

Brian Borchers'ın cevabı oldukça iyi --- garip aykırı değerler içeren veriler genellikle OLS tarafından iyi analiz edilmiyor. Bir resim, bir Monte Carlo ve bir Rkod ekleyerek bunu daha da genişleteceğim .

Çok basit bir regresyon modeli düşünün:

\begin{aligned} Y_{i} & = β_{1} x_{i} + ϵ_{i} \\ ϵ_{i} & = {\begin{array}{rcl} N (0, 0.04) & w . p . & 0.999 \\ 31 & w . p . & 0.0005 \\ - 31 & w . p . & 0.0005 \end{array} \end{aligned}

$\begin{align} Y_i &= \beta_1 x_i + \epsilon_i\\~\\ \epsilon_i &= \left\{\begin{array}{rcl} N(0,0.04) &w.p. &0.999\\ 31 &w.p. &0.0005\\ -31 &w.p. &0.0005 \end{array} \right. \end{align}$

Bu model, 1 eğim katsayısı ile kurulumunuza uygundur.

Ekli grafik, bu modelde 100 gözlemden oluşan ve x değişkeni 0'dan 1'e çalışan bir veri kümesini gösterir. Grafik çizilen veri kümesinde, bir aykırı değerle ortaya çıkan hata üzerinde bir çizim vardır (bu durumda +31). . Mavi OLS regresyon çizgisi ve kırmızı renkte en az mutlak sapma regresyon çizgisi de çizilmiştir. OLS, ancak LAD değil aykırı değer tarafından nasıl bozulduğuna dikkat edin:

Bir aykırı değer ile OLS vs LAD

Monte Carlo yaparak bunu doğrulayabiliriz. Monte Carlo'da, aynı ve yukarıdaki dağılımı 10.000 kez olan bir kullanarak 100 gözlemden oluşan bir veri kümesi oluşturuyorum . Bu 10.000 kopyada, büyük çoğunlukta bir aykırı değer elde edemeyiz. Ama birkaçında bir aykırı değer elde edeceğiz ve her seferinde OLS'yi batıracak ama LAD değil. Aşağıdaki kod Monte Carlo'yu çalıştırıyor. Eğim katsayıları için sonuçlar: $x$ $\epsilon$ R

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

Hem OLS hem de LAD tarafsız tahmin ediciler üretir (eğimler 10.000 replikasyonu üzerinde ortalama 1,00'dür). OLS, çok daha yüksek standart sapmaya sahip bir tahminci üretir, ancak 0.34'e karşı 0.09. Bu nedenle, OLS burada yansız tahmin ediciler arasında en iyi / en verimli değildir. Elbette hala MAVİ, ama LAD doğrusal değil, bu yüzden bir çelişki yok. OLS'un Min ve Maks sütununda yapabileceği vahşi hatalara dikkat edin. O kadar LAD değil.

Hem grafik hem de Monte Carlo için R kodu:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)

— fatura
kaynak

@Manuel Teşekkürler. R programımda bir hata yakaladım --- bir sqrt (0.04) olması gereken bir 0.04 vardı. Cevabın itişini değiştirmedi. Sonuçlarda küçük bir fark yarattı. Ancak, kodu daha önce kopyaladıysanız, şimdi tekrar kopyalamanız gerekir.

— Bill

Bir örnek, ortalamayı tahmin etmek istemediğiniz yer olabilir. Bu, HIV / AIDS'in yayılmasını modellemenin bir parçası olarak, insanların seks partnerinin sayısını tahmin ettiğimiz yerde yaptığım işte ortaya çıktı. Dağıtımın kuyruklarına daha fazla ilgi vardı: Hangi insanların çok fazla ortağı var?

Bu durumda, kantil regresyon isteyebilirsiniz; bence az kullanılan bir yöntem.

— Peter Flom
kaynak

Ortalamayı tahmin etmek istememekle ne demek istiyorsun? hakkında konuştuğunuz şey varsa, sık sık bir yaklaşımda sabit bir parametre olarak görüyorum .

β

$\beta$

— Manuel

Yoksa demek istediniz ?

Y

$Y$

— Manuel

Evet, Y demek istedim. OLS regresyonu bunu yapıyor.

— Peter Flom

Harika bir nokta, + 1. ifadesini düşünün ve minimumunu hesaplayın. A ve b arasındaki orta noktadır. Bu, hata fonksiyonuyla, diğer bir deyişle güçlü regresyonla

(x - a)^{2} + (x - b)^{2}

$(x-a)^{2}+(x-b)^{2}$

L_{1}

$L_{1}$

— zıttır

Eğer bir kötü şartına matris veya tam olarak tekil, sonra da en küçük kareler tahmincisi pratikte son derece istikrarsız ve yararsız olacaktır. $X$

Dikkatinizi dağılımıyla sınırlarsanız, Gauss-Markov teoreminin en küçük kareler çözümünün minimum varyans tarafsız tahmincisi olmasını sağladığını unutmayın. $\epsilon$

Dağılımı Ancak, yeterince uç, o zaman tahminlerinin dağılımı kötü özelliklere sahip yapı örnekleri mümkündür (özellikle, son derece büyük bir hata olasılığı düşük olsa olasılığı () ) olarak en az rağmen varyans. $\epsilon$ $\beta$

— Brian Borchers
kaynak

aşırı dağılımı ne olurdu ? Unutmayın, kimlik kovaryans matrisi vardır.

ε

$\varepsilon$

— Manuel

Ayrıca, Gauss-Markov, en küçük karelerin doğrusal arasında minimum varyans yansız tahmincisi olmasını sağlar. Doğrusal tahminciler bazı dağılımlar için uygun değildir. Anlamak istediğim bu.

— Manuel

Burada dağıtım düşünün olasılık 0.9999 ile ve olasılık ile ve olasılıkla . Şimdi, (y'ler sadece bilinmeyen parametrenin doğrudan ölçümleridir ) ve yaklaşık 100 gözleminiz olduğunu varsayalım . Büyük olasılıkla tahmininiz mükemmel olacaktır, ancak nadir görülen kötü değerlerinden birini içeren ve sonuç olarak kapalı olan bir tahminin önemli bir olasılığı vardır .

ϵ_{i} = 0

$\epsilon_{i}=0$

ϵ_{i} = 100

$\epsilon_{i}=100$

0.00005

$0.00005$

ϵ_{i} = - 100

$\epsilon_{i}=-100$

0.00005

$0.00005$

X = I

$X=I$

β

$\beta$

ϵ

$\epsilon$

— Brian Borchers

Gerçekten tuhaf bir şey istiyorsanız, 4 serbestlik derecesine sahip, uygun şekilde ölçeklendirilmiş bir Student t dağılımı kullanmayı düşünün. Bu sonlu ortalama ve varyansla, ancak sınırsız dördüncü momentle iyi bilinen bir dağılımdır. Şimdi ve ile 1 gözleminiz olduğunu varsayalım . dağılımı sonlu ortalama ve varyansa sahip ancak sınırsız dördüncü moment olacaktır.

X = 1

$X=1$

β = 0

$\beta=0$

\hat{β}

$\hat{\beta}$

— Brian Borchers

İkinci yorumunuzun aradığım şey olduğuna inanıyorum. Sadece düşük olma olasılığını rahatsız ediyor. Ayrıca bu örnekten, hataların dağılımını bilirken daha iyi bir tahmincinin nasıl oluşturulacağı oldukça açıktır.

— Manuel