Doğrusal regresyonda ikili / dikotom bağımsız öngörücüler için artık analiz nasıl yapılır?


11

Yönetilen fon getirilerini tahmin etmek için R'de aşağıdaki çoklu doğrusal regresyonu gerçekleştiriyorum.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Burada sadece GRI ve MBA ikili / dikotom tahmincileridir; kalan öngörücüler süreklidir.

İkili değişkenler için artık grafikler oluşturmak için bu kodu kullanıyorum.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

Benim Soru: Ben sürekli belirleyicileri için artık araziler incelemek için biliyorum ancak bağımsız değişken ikili olduğunda nasıl böyle homoscedasticity olarak lineer regresyon varsayımları test ederim?

Artık Grafikler:

GR1 için Artık Arsa MBA için Artık Arsa

Yanıtlar:


8

@NickCox, iki grubunuz olduğunda artıkların ekranları hakkında iyi bir iş çıkardı. Bu konunun arkasında yatan bazı açık soruları ve örtülü varsayımları ele alalım.

Soru, "bağımsız bir değişken ikili olduğunda homoscedasticity gibi doğrusal regresyon varsayımlarını nasıl test ediyorsunuz?" Bir var çoklu regresyon modeli. Bir (çoklu) regresyon modeli, her yerde sabit olan yalnızca bir hata terimi olduğunu varsayar. Her bir yordayıcı için ayrı ayrı heteroscedastisite olup olmadığını kontrol etmek çok anlamlı değildir (ve sizde yoktur). Bu nedenle, çoklu regresyon modelimiz olduğunda, artıkların parsellerinden tahmin edilen değerlere karşı heterossedastisite tanısı koyarız. Muhtemelen bu amaçla en yararlı arsa bir olan ölçek konum tahmin edilen değerler vs artıkların mutlak değerinin karesinin bir komplodur (ayrıca 'yayılma düzeyi' denir) arsa. Örnekleri görmek için,Doğrusal regresyon modelinde "sabit varyans" olması ne anlama gelir?

Benzer şekilde, her bir öngörücünün kalıntılarını normallik açısından kontrol etmek zorunda değilsiniz. (Dürüst olmak gerekirse bunun nasıl çalışacağını bile bilmiyorum.)

Ne yapabilirsiniz bireysel belirleyicileri karşı artıkların araziler ile ilgisi fonksiyonel Form düzgün belirtilen olup olmadığını görmek için bir kontroldür. Örneğin, artıklar bir parabol oluşturuyorsa, verilerde kaçırdığınız bazı eğrilikler vardır. Bir örnek görmek için, @ Glen_b'nin cevabındaki ikinci konuya bakın: Doğrusal regresyonda model kalitesini kontrol etme . Ancak, bu sorunlar ikili bir yordayıcı için geçerli değildir.

Değeri ne olursa olsun, sadece kategorik öngörücüleriniz varsa, hetero-esnekliği test edebilirsiniz. Sadece Levene testini kullanıyorsun. Burada tartışıyorum: Levene'in neden F oranı yerine varyans eşitliği testi? R'de , araba paketinden ? LeveneTest kullanırsınız .


Düzenleme: Daha iyi bir çoklu regresyon modeli olduğunda kalıntıları bir tekil tahmin değişkeni vs bir arsa bakarak yardımcı olmadığını göstermek için, bu örneği düşünün:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Veri üretme işleminden herhangi bir hetero-esneklik olmadığını görebilirsiniz. Modelin ilgili çizimlerini, sorunlu bir heterosensedastisite ima edip etmediklerini görmek için inceleyelim:

resim açıklamasını buraya girin

Hayır, endişelenecek bir şey yok. Bununla birlikte, orada heteroseladastisite olup olmadığını görmek için artıkların ikili ikili tahmin değişkenine karşı grafiğine bakalım:

resim açıklamasını buraya girin

Ah, bir sorun olabilir gibi görünüyor. Veri üretme sürecinden herhangi bir hetero-esneklik olmadığını biliyoruz ve bunu araştırmak için birincil grafikler de hiç göstermedi, bu yüzden burada neler oluyor? Belki bu parseller yardımcı olacaktır:

resim açıklamasını buraya girin

x1ve x2birbirinden bağımsız değillerdir. Üstelik gözlemler x2 = 1uç noktalarda. Daha fazla kaldıraçları vardır, bu nedenle kalıntıları doğal olarak daha küçüktür. Bununla birlikte, herhangi bir hetero-esneklik yoktur.

Eve götür mesajı: En iyi seçeneğiniz, sadece uygun grafiklerden (artıklara karşı yerleştirilmiş grafik ve spread seviyesi grafiği) heteroscedastisiteyi teşhis etmektir.


Teşekkürler! Yaptığım aynı regresyon için, Residual Vs Y'nin homoscedastic olduğunu buldum, ancak Residual Vs tenure (bağımsız) 'yı kontrol ettiğimde bu bir huni şekliydi. Bu hakkı düzeltmek için bazı dönüşümler yapmam gerekiyor mu? O zaman bu bağlamda, artık kalan Vs bağımsız değişkenini kontrol etmenin neden gerekli olmadığını belirtmek istediniz?
GeorgeOfTheRF

@ mrcet007, hayır bir dönüşüme ihtiyacınız yok. Takılan res vs heteroscedasticity göstermiyorsa, sorun yok. Belki bir örnek size yardımcı olacaktır. Bir gösteri eklemek için cevabımı düzenledim.
gung - Monica'yı eski

Bu bağlantıyı kontrol edebilir misiniz people.duke.edu/~rnau/testing.htm . Kalıntı Vs bağımsız değişkenini de kontrol ediyor. Sadece tartışma için paylaşmak uğruna. Bu konuda yorum yapabilir misiniz? Ne düşünüyordum, her zaman hem kalan Vs hem de artık vs bağımsız hem de kontrol etmek gerekiyordu. hataların (a) zamana karşı (zaman serisi verisi durumunda) (b) herhangi bir bağımsız değişkene karşı tahminlerin (c) ve homoscedasticity (sabit varyans)
GeorgeOfTheRF 17:14

Benim yorumum, hem heterosensedastisiteyi kontrol etmek için artık vs tahmini grafiklere bakmanızın bir nedeni sağladım ve size artık vs IV grafiklere bakmanın sizi nasıl saptırabileceğini gösteren bir örnek gösterdim. Başka ne söyleyeceğimi bilmiyorum.
gung - Monica'yı eski

6

Bu durumda konvansiyonel artık arazilerin daha zor olduğu doğrudur: dağılımların yaklaşık olarak aynı olup olmadığını görmek çok daha zor olabilir. Ancak burada kolay alternatifler var. Sadece iki dağılımı karşılaştırıyorsunuz ve bunu yapmanın birçok iyi yolu var. Bazı olasılıklar yan yana veya üst üste bindirilmiş kuantil grafik, histogram veya kutu grafiktir. Benim önyargım, süslenmemiş kutu parsellerinin burada aşırı sık kullanılmasıdır: genellikle önemsiz olarak reddedebilsek bile, bakmak istediğimiz detayı bastırırlar. Ama pastanızı yiyip yiyebilirsiniz.

R kullanıyorsunuz, ancak sorunuzdaki istatistiksel hiçbir şey R'ye özgü değil. Burada Stata'yı tek bir ikili kestirimci üzerindeki bir gerileme için kullandım ve sonra kestiricinin iki seviyesi için kalıntıları karşılaştırarak kantil kutu grafikleri ateşledim. Bu örnekteki pratik sonuç dağılımların hemen hemen aynı olduğudur.

resim açıklamasını buraya girin

1/43/4

Not: Ayrıca bkz Nasıl aşırı aykırı değer ile mevcut kutu arsa için? @ Glen_b'in R kullanan benzer grafiklere örnek olması da dahil olmak üzere. değilse, yazılımınız iyi değil.


+1 Güzel. Burada kalanlar üzerinde de hipotez testi yapmanın bir rolü olduğunu düşünüyor musunuz?
Alexis

@gung Düzenlemenizi düzenledim. Orijinal, yanlış anlarsanız yeterince açık değildi.
Nick Cox

2
@Alexis Teşekkürler! Bu durumda eşit dağılımlı bir hipotezin grafik tarafından gayri resmi olarak desteklendiği fikrinden memnunum. Bir analizdeki her küçük adımın bir P değeriyle kutsanması gerektiği düşüncesinden değilim. Ne yazık ki, doğru şekilde atladığınızdan emin olmak asla kolay değildir, ancak şüphe duyarsam pratikte diğer modelleri de eğlendiririm. Burada örnek, ciddi bir analizin bir parçası değil, sadece soru için uydurulmuştur.
Nick Cox

Özür dilerim, Nick. Bu cümlenin amacını yanlış anladım. Bunun bir yazım hatası olduğunu düşündüm. Şimdi daha açık.
gung - Monica'yı eski

1
@whuber Benim için sorun değil. Bazı insanlar onları kafa karıştırıcı bulur, ya da bana öyle söylenir.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.