Artık grafikler: neden gözlemlenen değerlerine değil, yerleştirilmiş değerlere karşı çizim ?


20

OLS regresyonu bağlamında, sabit varyansın test edilmesi ve model spesifikasyonunun değerlendirilmesi için geleneksel olarak bir artık grafiğin (takılan değerlere karşı) görüntülendiğini anlıyorum. Kalanlar neden değerlerine değil, uyumlara karşı çizilir ? Bilgiler bu iki grafikten nasıl farklı?Y

Aşağıdaki artık grafikleri üreten bir model üzerinde çalışıyorum:

resim açıklamasını buraya girin

resim açıklamasını buraya girin

Dolayısıyla, yerleştirilen değerlere karşı grafik hızlı bir bakışta iyi görünüyor, ancak Y değerine karşı ikinci grafik bir kalıba sahip. Neden böyle belirgin bir desenin artık vs vs arsada ortaya çıkmadığını merak ediyorum ....

Modelle ilgili sorunları teşhis etmede yardım aramıyorum, sadece (genellikle) (1) rezidüel ve fit komplo ile (2) rezidüel ve komplo arasındaki farkları (genellikle) anlamaya çalışıyorum . Y

Ne için değer, eminim ikinci grafikte hata desen DV etkileyen ihmal değişken (ler) nedeniyle. Şu anda, genel uyum ve spesifikasyona yardımcı olacağını umduğum verileri elde etmeye çalışıyorum. Gayrimenkul verileri ile çalışıyorum: DV = Satış Fiyatı. IV'ler: Sq.ft of house, # garaj alanı, yapım yılı, yapım yılı . 2


3
Niyetinize biraz daha yakından uyacak şekilde başlığı değiştirme özgürlüğünü aldım. İktisatçılar arasında bile (siz de olabilirsiniz), bu durumda belirsizlik olmamasına rağmen, "IV" nin araçsal değişkenin başka bir anlamı vardır. Bazı istatistik bilimleri arasında daha iyi iletişim için, bazılarımız DV (bazı insanlar için hala Deo volente anlamına gelir ) ve IV gibi yerel olarak kullanılan kısaltmaları ve bir yandan yanıt veya sonuç ve tahminci veya eş değişken gibi uyarıcı terimler lehine caydırıyoruz. diğer. Bunun sorunuzda bir ayrıntı olduğunu biliyorum, ama iyi yanıtlandı.
Nick Cox

Yanıtlar:


11

Yapım gereği, bir OLS modelindeki hata terimi, X ortak değişkenlerinin gözlenen değerleri ile ilişkili değildir. Model, bir parametrenin gerçek değerlerini yansıtmayan önyargılı tahminler vermiş olsa bile, gözlemlenen veriler için her zaman doğru olacaktır çünkü modelin bir varsayımı ihlal edilmiştir (atlanmış değişken problem veya ters nedensellik sorunu gibi). Öngörülen değerler tamamen bu ortak değişkenlerin bir işlevidir, bu nedenle hata terimiyle de ilişkilendirilmezler. Bu nedenle, kalıntıları tahmin edilen değerlere göre çizdiğinizde, bunlar her zaman rastgele görünmelidir, çünkü bunlar tahmin edicinin inşasıyla gerçekten ilişkisizdir. Buna karşılık, bir modelin hata teriminin pratikte Y ile ilişkilendirilmesi tamamen (ve aslında muhtemeldir). Örneğin, bir dikotom X değişkeni ile gerçek Y,E(Y | X = 1)veya E(Y | X = 0)daha sonra artık daha büyük olacaktır. İşte R'deki modelin tarafsız olduğunu bildiğimiz simüle edilmiş verilerle aynı sezgi: çünkü veri oluşturma sürecini kontrol ediyoruz:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Yanlı bir modelle aynı sıfır korelasyon sonucunu elde ederiz, örneğin atlarsak x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
Yararlı, ancak ilk cümle anlaşılır olması için yeniden yazılabilir. "İnşaat" kalıntıları üretir; hata teriminin hesaplama öncesinde orada ve var olduğu kabul edilir. Benzer şekilde, bunları oluşturmak için kullanılan yöntem olan tahminci değil, yapılan tahminlerin olduğunu söyleyebilirim.
Nick Cox

Peki neden artık grafiğe bakıyoruz (uyuyor vs)? Bu arsanın hangi teşhis amacı var? Sitede yeniyim. Michael'ı etiketlemem gerekiyor mu yoksa bu yorumu otomatik olarak alıyor mu? Yorumum aşağıdaki @ Glen_b yanıtı için de geçerlidir. Her iki cevap da anlamama yardımcı oluyor. Teşekkürler.
Mac

... çünkü başka bir yapı ortaya çıkarabilirler. Artık ve uyum arasındaki korelasyon eksikliği, başka şeylerin de yapılamayacağı anlamına gelmez. Modelinizin mükemmel olduğuna inanıyorsanız, bunun mümkün olduğuna inanamayacaksınız .... Pratikte başka tür yapıları kontrol etmeniz gerekir.
Nick Cox

@Mac, dürüst olacağım ve bu çizimlere asla bakmadığımı söyleyeceğim. Nedensel bir çıkarım yapmaya çalışıyorsanız, atlanan değişken problemleri ve nedensellik problemlerini kavramsal olarak düşünmelisiniz. Her iki problem de meydana gelebilir ve gözlemsel denklik problemleri olduğu için bu grafiklerden onu göze alamazsınız. Önem verdiğiniz tek şey tahmin ise, modelinizin tahminlerinin örnek dışında ne kadar iyi performans gösterdiğini düşünüp örnek dışı test etmelisiniz (aksi takdirde bir tahmin değildir).
Michael

@NickCox Evet, parametrenin gerçek değerini değil, model tarafından tahmin edilen hata terimini kastediyorum.
Michael

20

Benimle mutlu olduğunu düşündüğüm iki gerçek:

ben. yben=y^ben+e^ben

ii. Cov(y^ben,e^ben)=0

Sonra:

Cov(yben,e^ben)=Cov(y^ben+e^ben,e^ben)

=Cov(y^ben,e^ben)+Cov(e^ben,e^ben)

=0+σe2

=σe2

Yerleştirilen değeri kalıntı ile ilişkili değilken Yani, gözlem olduğunu .

Gerçekte, bunun nedeni hem gözlem hem de artıkların hata terimi ile ilgili olmasıdır.

Bu, artık arsaların teşhis amaçlı kullanılmasını genellikle biraz zorlaştırır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.