En güçlü ilişkili öngörücü ikili olduğunda bir regresyon modeli oluşturmaya nasıl başlanır


11

Ben, yani üç değişkenin 365 gözlem içeren ayarlanmış veri pm, tempve rain. Şimdi pmdiğer iki değişkendeki değişikliklere tepki olarak davranışını kontrol etmek istiyorum . Değişkenlerim:

  • pm10 = Yanıt (bağımlı)
  • temp = öngörücü (bağımsız)
  • rain = öngörücü (bağımsız)

Verilerim için korelasyon matrisi aşağıdadır:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Sorun şu ki, regresyon modellerinin yapımını incelerken, katkı yönteminin yanıt değişkeniyle en çok ilişkili olan değişkenle başlamak olduğu yazılmıştır. Veri rainsetimde pm(ile karşılaştırıldığında temp) yüksek derecede korelasyon var , ama aynı zamanda bir kukla değişken (yağmur = 1, yağmur yok = 0), bu yüzden şimdi nereden başlamam gerektiğine dair ipucu var. Ben soru ile iki görüntü ekledim: Birincisi veri dağılım grafiği, ve ikinci görüntü pm10vs bir dağılım grafiği rain, ben de pm10vs dağılım grafiğini yorumlayamıyorum rain. Bazıları nasıl başlamama yardımcı olabilir?

bu verilerimin dağılım grafiği

yağmur vs pm10 Dağılım


3
Bu, yanlış anlaşılmadan ilerlese bile, mükemmel bir şekilde uygulanabilir bir soru olan IMO'dur.
gung - Monica'yı eski

Regresyon ile hatırlanması gereken bir şey, bağımlı değişkenin rastgele bir değişken olduğu varsayılırken , öngörücülerinin deneysel olarak kontrol edilen değişkenler olduğu varsayılır. (bu nedenle, kafasına bir şey çevirirken dikkatli olun). Diyagonal olmayan ? hiçbiri olmadığından, matrisinizde güçlü bir pozitif veya negatif korelasyon yok gibi görünüyor. x i 1 , x i 2 , , x i p | r j k | > 0.8yixi1,xi2,,xip|rjk|>0.8
wrktsj

Yanıtlar:


17

Birçok kişi, en çok ilişkili değişkenle başlayıp daha sonra önemli olmayana kadar ek değişkenler eklemek gibi bir strateji kullanmanız gerektiğine inanmaktadır. Ancak, bu yaklaşımı zorlayan bir mantık yoktur. Dahası, bu bir tür 'açgözlü' değişken seçim / arama stratejisidir (bkz. Burada cevabım: Otomatik model seçimi için algoritmalar ). Bunu yapmak zorunda değilsiniz ve gerçekten de yapmamalısınız. İle pmve arasındaki ilişkiyi bilmek istiyorsanız , ve tempverain, üç değişkenin tümüne birden çok regresyon modeli sığdırın. Makul olup olmadığını ve varsayımların karşılanıp karşılanmadığını belirlemek için modeli değerlendirmeniz gerekecektir, ancak hepsi bu. Bazı a priori hipotezlerini test etmek istiyorsanız, bunu modelle yapabilirsiniz. Modelin örnek öngörülü doğruluğunu değerlendirmek istemiyorsanız, bunu çapraz doğrulamayla yapabilirsiniz.

Çoklu bağlantı konusunda da endişelenmenize gerek yok. Arasındaki korelasyon tempve rainolarak listelenir 0.044sizin korelasyon matrisinde. Bu çok düşük bir korelasyon ve herhangi bir soruna neden olmamalıdır.


1
nazik önerileriniz için çok teşekkür ederim. ben bu siteyi nasıl kullanacağımı bilmiyorum, lütfen bazı ekstra öneriler veya eğitim materyalleri verebilir misiniz
Syed Asif Ali Shah

1
@SyedAsifAliShah, İngilizce dışında ana diliniz gibi görünmüyor, siteyi nasıl kullandığınıza dair herhangi bir sorun görmüyorum. Çalışma materyalleri ile ilgili olarak, şu veya bu konuya bakabilir veya sadece referanslarımızla konularımıza göz atabilirsiniz .
gung - Monica'yı eski

verilerim için doğrusal model veya GLM denemek gerekir?
Syed Asif Ali Şah

1
@SyedAsifAliShah, muhtemelen doğrusal bir model verileriniz için iyidir.
gung - Monica'yı eski haline getirin

kardeşim senin yardımına ihtiyacım var
Syed Asif Ali Shah

10

Bu, zaten toplanmış olan veri kümenizi doğrudan ele almasa da, bir dahaki sefere böyle veri toplarken deneyebileceğiniz başka bir şey, "yağmur" un ikili olarak kaydedilmesini önlemektir. Yağmur hızını (cm / saat) ölçtüyseniz, verileriniz 0 ... max_rainfall'dan sürekli olarak dağıtılan (ölçüm hassasiyetinize kadar) bir değişken verecek olsaydı muhtemelen daha bilgilendirici olurdu.

Bu sadece diğer değişkenlerle "yağmur yağıyor" değil, aynı zamanda "ne kadar yağmur yağıyor?"


merhaba kardeşim ben de aynı öneride bulundum yağmur ve yapı modeli tam veri topladı
Syed Asif Ali Şah

e-postanı sorabilir miyim lütfen ??? sadece birkaç soru sormak istiyorum
Syed Asif Ali Shah

Modelinizi ayarlamakla ilgili başka sorularınız varsa, belki de yeni bir StackExchange sorusu bu yol olacaktır. Bu şekilde, çoğu I'den daha uzman olan daha fazla
insandan

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.