Bağımlı değişkene göre artıkların parsellerini incelemek mantıklı mı?


11

Tek değişkenli bir regresyon elde ettiğimde, artıkların değişkenlerini bağımlı değişkenle ilgili olarak incelemenin mantıklı olup olmadığını bilmek istiyorum. Mantıklıysa, artıklar (y ekseninde) ile bağımlı değişkenin (x ekseninde) tahmini değerleri arasında güçlü, doğrusal, büyüyen bir korelasyon ne anlama gelir?

resim açıklamasını buraya girin


3
"Güçlü, doğrusal, büyüyen korelasyon" ile ne demek istediğinden emin değilim. Planı gösterebilir misin? Kalıntıları uygun değerlere göre çizmek son derece makul. Genel olarak, ilişki olmamasını istersiniz - merkezden geçen düz bir yatay çizgi. Ek olarak, artıkların dikey dağılımının çiziminizin sol tarafından sağa sabit olmasını istersiniz.
gung - Monica'yı eski durumuna getirin

Selam. Cevabınız için teşekkür ederim. Arsa: img100.imageshack.us/img100/7414/bwages.png
Luigi

Şaşırtıcı. Anladığımdan emin olmama izin verin: Bir regresyon modeli çalıştırdınız, daha sonra kalanları uygun değerlere göre çizdiniz ve elde ettiğiniz bu, doğru mu? Öyle görünmemeli. Sorunuzu düzenleyebilir ve model ve çizim için kullandığınız kodu yapıştırabilir misiniz?
gung - Monica'yı eski durumuna getirin

Doğru anladın. Üzgünüm, ama kodu nasıl alacağımı bilmiyorum, regresyonu çalıştırdım ve kalanları Gretl programı ile planladım.
Luigi

2
Aşağıda cevabımı yazdığımda başlangıçta @ mark999 tarafından yapılan yorumu görmedim. Bence şüphesi doğru, bu artıklar ve y değerleri. Luigi, grafiğini tekrar yap - değişkenlerin ne olduğu konusunda yanlış olabileceğin zaman onu yorumlamaya çalışmayın.
Michael Bishop

Yanıtlar:


12

Varsayalım ki , burada β 10 . Sonra, y i - β 0ϵ i . Y değeri ne kadar yüksek olursa , artık o kadar büyük olur. Aksine, x'e karşı artıkların bir çizimi sistematik bir ilişki göstermemelidir. Aynı zamanda, beklenilen değeri y ı yaklaşık olmalıdıryben=β0+β1xben+εbenβ10yben-β0εbenyxy^benβ^0--- her gözlem için aynı. Öngörülen tüm değerler kabaca aynı ise, hatalarla ilişkilendirilmemelidir.

Planın bana söylediği şey, ve y'nin esasen ilgisiz olmasıdır (elbette bunu göstermenin daha iyi yolları vardır). Senin katsayısı varsa bize bildirin p 1 0'a yakın değildir.xyβ^1

Daha iyi teşhis olarak, tahmini ücrete veya değerine karşı artıkların bir grafiğini kullanın . Bu grafiklerde ayırt edilebilir bir örüntü gözlemlememelisiniz.x

Biraz R gösterisi yapmak istiyorsanız, işte başlıyoruz:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

Bu sadece olduğu için, modelin polinom terimleri gibi daha açıklayıcı değişkenlere ihtiyaç duyabileceği anlamına gelmez . β1=0
Biostat

5

Tahmini modelin doğru bir şekilde belirtildiği varsayılarak ...

Let göstermektedirler , matris P X , bir çıkıntı matris yani P 2 x = p XPX=X(X'X)-1X'PXPX2=PX ve PX'=PX .

CÖv(Y^,e^)=CÖv(PXY,(ben-PX)Y)=PXCÖv(Y,Y)(ben-PX)'=σ2PX(ben-PX)=0 .

Dolayısıyla, kalıntıların tahmin edilen bağımlı değişkene karşı dağılım grafiği hiçbir korelasyon göstermemelidir.

Fakat!

.CÖv(Y,e^)=CÖv(Y,(ben-PX)Y)=CÖv(Y,Y)(ben-PX)'=σ2(ben-PX)

Matris σ2(ben-PX) olan bir çıkıntı matrisi, kendi öz değerleri, 0 veya +1, pozitif yarı kesin var. Bu yüzden diyagonalde negatif olmayan değerlere sahip olmalıdır. Dolayısıyla, kalıntıların orijinal bağımlı değişkene karşı dağılım grafiği pozitif korelasyon göstermelidir.

Bildiğim kadarıyla Gretl, varsayılan olarak orijinal bağımlı değişkene karşı tahmin grafiği üretiyor (tahmin edileni değil!).


Farklı olasılıkları takdir ediyorum. Gretl'ın bazı bilgilerinin yararlı olduğu yer burasıdır. Ancak merak ediyorum, bunun gerçek cevap olması ne kadar akla yatkın. Simüle edilmiş verilerimi kullanarak, kalıntıları orijinal dv ile ilişkilendirdim ve çizdim; r = .22 ve arsa, 3. arsaya çok benziyor, soru grafiğine değil. Tabii ki, bu verileri hikayemin uygunluğunu kontrol etmek için çalıştım - sizinkini kontrol etmek uygun olmayabilir.
gung - Monica'yı eski haline getirin

@gung Simüle verilerinizi ne demek istediniz?
Michael Bishop

@MichaelBishop Cevabıma bakarsanız, hikayemi yayınlamak için gönderilen arsaya benzeyeceğini görmek için verileri simüle ettiğimi görürsünüz. Kodum ve grafiklerim sunuluyor. Tohumu belirlediğimden beri, R erişimi olan herkes tarafından tekrar üretilebilir
gung - Reinstate Monica

4

Takılmış / tahmin edilen değerleri gerçek değerlerle karıştırmanız mümkün mü?

@Gung ve @biostat'ın dediği gibi, uygun değerler ile artıklar arasında bir ilişki olmadığını umuyorsunuz. Öte yandan, bağımlı / sonuç değişkeninin gerçek değerleri ile artıklar arasında doğrusal bir ilişki bulunması beklenmelidir ve özellikle bilgilendirici değildir.

Önceki cümleyi açıklığa kavuşturmak için eklendi: Sadece artıklar ve çıktının gerçek değerleri arasında herhangi bir doğrusal ilişki beklenmeyecek ... Y'nin düşük ölçülen değerleri için, Y'nin faydalı bir modelden öngörülen değerleri daha yüksek olacaktır. ölçülen gerçek değerler ve tam tersi.


Söylediklerinizin anlamı, eğer değerler Y'nin düşük değerlerinde sürekli olarak tahmin edilmiyorsa ve Y'nin yüksek değerlerinde sürekli olarak tahmin ediliyorsa, sorun değil. Bu bir problem, değil mi?
Mayıs

@ rolando2, ne demek istediğimi ima etmedim ama belki cevabımı netleştirmeliyim. Dediğiniz gibi, Y'nin düşük değerlerinde sürekli olarak az tahmin etmek ve Y'nin yüksek değerlerinde fazla tahmin etmek çok kötü bir modelin işareti olacaktır. Bunun tersini düşündüm, Y'nin düşük değerlerinde aşırı tahmin ve Y'nin yüksek değerlerinde tahmin. Y'yi tahmin eden herhangi bir değişkeniniz olmadığını hayal edin, bu nedenle her zaman tahmini olarak ortalama kullanın
Michael Bishop

1
tek bir şey hariç söylediklerin benim için anlamlı. Luigi'nin gösterdiği kadar güçlü bir trendin, soldan sağa doğru gitse bile, sağlam veya istenen bir çözümde ortaya çıkacağını hayal etmekte sorun yaşıyorum.
rolando2 21:11

1
@ rolando2, Artıklar tipik olarak gözlemlenen - takılan olarak tanımlanır, bu nedenle negatif artıklar aşırı tahminlerdir. Çok az açıklayıcı güce sahip düzgün bir şekilde belirlenmiş bir modelde - Ben bir sosyal bilimciyim, bu yüzden bunları her zaman görüyorum - artıklar ve gözlenen sonuç değerleri arasında güçlü bir pozitif ilişki olacaktır. Bu artıklara karşı gerçek arsa ise, o zaman sol üstten sağa doğru bir eğilim, başlangıçta endişelendiğiniz, yanlış tanımlanmış kötü bir modelin sinyali olacaktır.
Michael Bishop

Tamam, benim hatam. Michael Bishop ve Roah'ın yazdığı gibi, Gretl artıkları tahmin edilen değil gözlemlenen y'ye göre planlar . Tüm bu karmaşa için çok üzgünüm, gerçekten tüm bu cevapları beklemiyordum. Ben bir acemiyim ve bu hatayı yaptım, umarım beni "affedebilir". Her neyse, bunun bana daha fazla açıklayıcı değişken kullanmam gerektiğini göstermesi gerektiğini düşünüyorum. Herkese teşekkürler!
Luigi

3

Verilen cevaplar bana burada neler olduğu hakkında bazı fikirler veriyor. Kazayla yapılan bazı hatalar olabileceğine inanıyorum. Aşağıdaki hikayenin mantıklı olup olmadığına bakın: Başlamak için, verilerde X & Y arasında güçlü bir ilişki olduğunu düşünüyorum (burada bazı kodlar ve bir çizim):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

resim açıklamasını buraya girin

Ancak yanlışlıkla Y sadece ortalamadan tahmin edildi. Bunu birleştirerek, ortalama tek modelin kalıntıları, amaçlanan değerlere (kod ve çizim) karşı koymak olsa bile X'e karşı çizilir:

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

resim açıklamasını buraya girin

Bunu uygun modeli takarak ve kalıntıları bundan ayırarak düzeltebiliriz (kod ve çizim):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

resim açıklamasını buraya girin

Bu sadece başladığımda yaptığım goof-up'lara benziyor.


0

Bu grafik taktığınız modelin iyi olmadığını gösterir. @Gung'un ana soru üzerine ilk yorumlarında söylediği gibi, öngörülen cevap ile artık arasında bir ilişki olmaması gerektiğini söyledi.

"Bir analist rastgele tarzda bir yanıt tahmin etmede err bir regresyon modeli beklenebilir; modeli fiili daha yüksek değerler tahmin ve eşit olasılıkla gerçek daha düşük olmalıdır bakın. Bu "

Aralarındaki ilişkiyi görmek için ilk değişken tepkisine karşı bağımsız değişken öneririm. Modele polinom terimleri eklemek mantıklı olabilir.


0

X & Y değişkeni arasında bir ilişki yoksa bu olmaz mı? Bu grafiğe baktığımızda, aslında Y'yi ortalama ile tahmin ettiğiniz anlaşılıyor.


0

OP'nin orijinal yanıt değişkenine (modelden takılan yanıt değişkeni değil) karşı artıklar çizdiğini düşünüyorum. Her zaman böyle araziler görüyorum, neredeyse aynı kalıpta. Artıklar ve uygun değerler çizdiğinizden emin olun, çünkü artıklardan orijinal Y'ye karşı ne kadar anlamlı çıkarım yapabileceğinizden emin değilim. Ama kesinlikle yanlış olabilirim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.