Ben, yani üç değişkenin 365 gözlem içeren ayarlanmış veri pm
, temp
ve rain
. Şimdi pm
diğer iki değişkendeki değişikliklere tepki olarak davranışını kontrol etmek istiyorum . Değişkenlerim:
pm10
= Yanıt (bağımlı)temp
= öngörücü (bağımsız)rain
= öngörücü (bağımsız)
Verilerim için korelasyon matrisi aşağıdadır:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Sorun şu ki, regresyon modellerinin yapımını incelerken, katkı yönteminin yanıt değişkeniyle en çok ilişkili olan değişkenle başlamak olduğu yazılmıştır. Veri rain
setimde pm
(ile karşılaştırıldığında temp
) yüksek derecede korelasyon var , ama aynı zamanda bir kukla değişken (yağmur = 1, yağmur yok = 0), bu yüzden şimdi nereden başlamam gerektiğine dair ipucu var. Ben soru ile iki görüntü ekledim: Birincisi veri dağılım grafiği, ve ikinci görüntü pm10
vs bir dağılım grafiği rain
, ben de pm10
vs dağılım grafiğini yorumlayamıyorum rain
. Bazıları nasıl başlamama yardımcı olabilir?