Kalıntıların ve takma değerlerin yorumlanması doğrusal bir modelin varsayımlarını doğrulamak için arsa


34

Faraway'in R'li Lineer Modellerinden R (2005, s. 59) aşağıdaki rakamı düşünün.

görüntü tanımını buraya girin

İlk arsa, artıkların ve takılan değerlerin normal dağılmış hataları olan homoscedastic lineer bir modelde olması gerektiği için birbiriyle ilişkili olmadığını gösteriyor gibi görünmektedir. Bu nedenle, artıklar ve takılan değerler arasındaki bağımlılığı gösteriyor gibi görünen ikinci ve üçüncü çizimler farklı bir model önerir.

Peki neden ikinci arsa Faraway'in belirttiği gibi heteroscedastic doğrusal bir model önermektedir, üçüncü arsa doğrusal olmayan bir model önermektedir?

İkinci arsa, artıkların mutlak değerinin, verilen değerlerle güçlü bir şekilde pozitif korelasyon gösterdiğini gösteriyor, oysa üçüncü arsada böyle bir eğilim bulunmuyor. Öyleyse, teorik olarak konuşursak, normal dağılmış hataları olan heteroscedastik bir doğrusal modelde

Cor(e,y^)=[1111]

(soldaki ifade, artıklar ve takılan değerler arasındaki varyans-kovaryans matrisidir), bu ikinci ve üçüncü çizimlerin Faraway'in yorumlarıyla neden aynı fikirde olduğunu açıklar.

Ama bu böyle mi? Olmazsa, Faraway'in ikinci ve üçüncü parsellere ilişkin yorumları nasıl haklı gösterilebilir? Ayrıca, üçüncü arsa neden doğrusal olmamaya işaret ediyor? Doğrusal olması mümkün değil, hataların ya normal dağılmadığını ya da normal dağılmadığını, ancak sıfıra ortalanmadığını gösteriyor mu?


3
Üç çizgiden hiçbiri korelasyon göstermez (en azından doğrusal ve sadece " artıklar ve takılan değerler ilişkisizdir " anlamında "korelasyon" un anlamı olan korelasyon değildir ).
Glen_b -Regan Monica 11:13 'te

1
@Glen_b: Teşekkürler. Bahsettiğiniz paragrafı, "korelasyon" yerine "bağımlılık" kullanarak değiştirdim.
Evan Aad

Yanıtlar:


46

x±

Ortalama işareti olan ve takılan her değerde yayılan teşhis grafikleri

  • xyx ) değişir. Yani, yayılma sabit değildir. Değişen Varyans.

  • yx

Doğrusal olması mümkün değil, hataların ya normal dağılmadığını ya da normal dağılmadığını, ancak sıfıra ortalanmadığını gösteriyor mu?

Gerçekten * değil, bu durumlarda araziler üçüncü arsadan farklı görünüyor.

θβ0+θ beklenen (yani olacaktır değer, ancak hata ile tahmin edilir). Sonuç olarak, artıklarınız hala koşullu ortalama sıfıra sahip olacak ve bu nedenle arsa yukarıdaki ilk arsa gibi görünecektir.

(ii) Hatalar normal bir şekilde dağılmamışsa, noktaların deseni merkez çizgisinden başka bir yerde daha yoğun olabilir (eğer veriler bükülmüşse), örneğin yerel ortalama artık hala 0'a yakın olacaktır.

normal olmayan hatalar

Burada mor çizgiler hala (çok) kabaca% 95 aralığını temsil ediyor, ancak artık simetrik değil. (Buradaki temel noktayı gizlememek için birkaç konu üzerinde duruyorum.)

xyx


1
y^y^x

2
x1x2x1

1
x

σ2IN(0,V)Vσ2IV
Evan Aad

1
(ctd) ... cevabımdaki ilk yorumumdan görebilmeniz gerektiği gibi, özellikle de "Hayal edebildiğiniz ..." cümlesinin bir sonucu olarak görülebilir - ama bununla ilgili olarak heteroskedasticity dışında kalıyor Ortalama.
Glen_b

2

Sen yazdın

İkinci arsa, artıkların mutlak değerinin, uygun değerlerle güçlü bir şekilde pozitif bir şekilde ilişkili olduğunu göstermektedir.

Öyle görünmüyor, öyle. Ve bu heteroskedastik'in anlamı.

Daha sonra ilgisiz olan tüm 1'lerin bir matrisini verin; korelasyon var olabilir ve 1'den az olabilir.

O zaman yaz

Ayrıca, üçüncü arsa neden doğrusal olmamaya işaret ediyor? Doğrusal olması mümkün değil, hataların ya normal dağılmadığını ya da normal dağılmadığını, ancak sıfıra ortalanmadığını gösteriyor mu?

Onlar yapmak yarısı yukarıda, 0. Yarım etrafında merkezi veya öylesine 0 altındadır. Normalde bu komplodan dağıtılıp dağıtılmadıklarını söylemek daha zordur, ancak genellikle önerilen başka bir komplo, artıkların miktarsal normal komplolarıdır ve normal olup olmadıklarını gösterir.


Teşekkür ederim. İlk arsa hatalarının dağılımının olması mümkün mü?N(0,V)Vσ2I

1
Bir miktar normal arsa sadece normallik bakar. İlk arsadaki eşcinselliğin kanıtı görseldir
Peter Flom - Monica’yı yeniden yerleştirmek

@PeterFlom: Necropost için özür dilerim: Her noktada hatayı düşündüğümüz miktar konusunda biraz kafam karıştı (xi, yi): Birkaç yanıt vermeyi düşünüyoruz (xi, y1_1), (xi, yi_2), ... , (xi, yi_m), xi girişi için; i = 1,2, ..., n (veri noktası sayısı) ve sonra yi_j değerleri için ortalama ve varyansı bulur. Doğrusal regresyonda neden y = ax + b, x, y, a (ya da çok satırlı bir y + a1x1 + a2x2 + ... anxn sonra ai, xi) 'nin rasgele değişkenler olduğu ve sabit olmayan değerler olduğu için kafam karıştı. Ayrıca, bu analizi her bir yordayıcı çifti için ve y'nin bağımsız değeri olan her bir çift (y, x_i) için mi yapıyoruz?
gary

Ne hakkında kafanın karıştığını anlamıyorum. Her gözlem için tahmini bir y değeri ve gerçek bir y değeri vardır. Artık, aralarındaki fark.
Peter Flom - Eski Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.