Tahmin

14

Aşağıdaki gibi teorik bir ekonomik modelim var,

y = a + b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3} + u

$y = a + b_1x_1 + b_2x_2 + b_3x_3 + u$

Teori olduğunu söylüyor Yani , ve faktörleri tahmin etmek . $x_1$ $x_2$ $x_3$ $y$

Şimdi gerçek verilerim var ve , , tahmin . Sorun, gerçek veri kümesinin yalnızca ve için veri içermesidir ; için veri yok . Yani sığabileceğim model aslında: $b_1$ $b_2$ $b_3$ $x_1$ $x_2$ $x_3$

y = a + b_{1} x_{1} + b_{2} x_{2} + u

$y = a + b_1x_1 + b_2x_2 + u$

Bu modeli tahmin etmek uygun mudur?
Tahmin eden herhangi bir şeyi kaybeder miyim?
Ben tahmin yaparsanız , , o zaman nerede gelmez terim gitti? $b_1$ $b_2$ $b_3x_3$
Hata terimi tarafından mı hesaplanıyor ? $u$

Ve biz varsaymak istiyorum ile ilişkili olmadığını ve . $x_3$ $x_1$ $x_2$

regression multiple-regression endogeneity

— renathy
kaynak

Veri kümeniz, yani bağımlı

değişkeniniz ve

ve

bağımsız değişkenleriniz hakkında ayrıntı verebilir misiniz ?

y

$y$

x_{1}

$x_1$

x_{2}

$x_2$

— Vara

Belirli veri seti olmadan varsayımsal bir örnek olarak düşünün ...

— renathy

20

Endişelenmeniz gereken konuya endojenite denir . Daha özel olarak ise, bu bağlıdır ile popülasyonda ilişkilidir veya . Eğer öyleyse, ilişkili yanlı olacaktır. Çünkü OLS regresyon yöntemleri, kalıntıları, , ortak değişkenlerinizle ilişkisiz olmaya zorlar , s. Ancak, artıklar bazı indirgenemez rastgelelik, oluşan , ve gözlenemeyen (ama ilgili) değişken, , hükme hangi $x_3$ $x_1$ $x_2$ $b_j$ $u_i$ $x_j$ $\varepsilon_i$ $x_3$ olduğu korelasyon ve / veya . Diğer taraftan, hem ve ile ilintisiz popülasyonunda, daha sonra s (onlar iyi tabii ki, başka bir şey tarafından önyargılı olabilir) bu önyargılı olmayacaktır. Ekonometrilerin bu konuyla başa çıkma yollarından biri araçsal değişkenler kullanmaktır . $x_1$ $x_2$ $x_1$ $x_2$ $x_3$ $b$

Daha fazla netlik için, R , örnekleme dağılımının, ile ilişkisiz olduğunda gerçek değeri üzerinde tarafsız / ortalanmış olduğunu gösteren hızlı bir simülasyon yazdım . İkinci seferde, ancak not ile ilintisizdir , ancak . Değil tesadüf tarafsız olmakla edilir önyargılı. $b_2$ $\beta_2$ $x_3$ $x_3$ $x_1$ $x_2$ $b_1$ $b_2$

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

— gung - Monica'yı eski durumuna döndürün
kaynak

Peki, biraz daha açıklayabilir misiniz - x3'ün x_1 $ ve x2 ile düzeltilmediğini varsayarsak ne olur? Peki y = a + b1x1 + b2x2 + u tahmin edersem ne olur?

— renathy

1

b_{3} x_{3}

$b_3x_3$

b

$b$

x_{3}

$x_3$

x_{3}

$x_3$

x_{1}

$x_1$

x_{2}

$x_2$

Bu sorunun yanıtını burada cevabımda tartışıyorum: Çok değişkenli bir regresyona daha fazla değişken eklemek mevcut değişkenlerin katsayılarını değiştiriyor mu?

— gung - Monica'yı eski

3

$r^2 = ax^2+by^2+cz^2 + \epsilon$ $x^2$ $y^2$ $z^2$ $r^2$

$x^2$ $y^2$ $r^2 \le ax^2 + by^2 + \epsilon$

$z$ $z$

Son paragraf bir "saf bilgi" olayından bahsediyordu ve gürültüyü hesaba katmadı. Gerçek dünya ölçümleri gürültülü sinyale sahiptir. Çevre boyunca eksenlere hizalanan gürültünün uyumunuz üzerinde çok daha güçlü bir etkisi olacaktır. Aynı sayıda örneğiniz olsa da, parametre tahminlerinizde daha fazla belirsizlik olacaktır. Eğer bu basit doğrusal eksen odaklı durumdan farklı bir denklem ise, o zaman işler “ armut şeklinde ” olabilir. Mevcut denklemleriniz düzlem şeklindedir, bu nedenle (topun yüzeyi) bağlı olmak yerine, z verileri haritanın her yerine gidebilir - projeksiyon ciddi bir sorun olabilir.

Modellemek uygun mu? Bu bir yargılama çağrısı. Sorunun ayrıntılarını anlayan bir uzman buna cevap verebilir. Birisi problemden uzaksa iyi bir cevap verebilir mi bilmiyorum.

Parametre tahminlerindeki kesinlik ve dönüştürülen modelin doğası da dahil olmak üzere birkaç iyi şeyi kaybedersiniz.

$b_3$

— EngrStudent - Monica'yı eski durumuna döndür
kaynak

1

4 π r^{2}

$4\pi r^2$

f (x, y, z)

$f(x,y,z)$

Argümanınızı takip edemiyorum çünkü “kare dolu” ya karşılık gelen hiçbir şey göremiyorum.

— whuber

0

Diğer cevaplar, yanlış olmasa da, sorunu biraz daha karmaşık hale getirir.

$x_3$ $x_1$ $x_2$ $\beta_3 x_3$

— Daniel Ludwinski
kaynak