Çoklu regresyonda açıklayıcı değişkenler arasındaki doğrusal ilişki


10

R: Örnek Tabanlı Bir Yaklaşım Kullanarak Veri Analizi ve Grafiklerin çoklu regresyon bölümünü okuyordum ve açıklayıcı değişkenler (dağılım grafiği kullanarak) arasındaki doğrusal ilişkilerin kontrol edilmesini önerdiğini ve bu kadar dönüştürerek, bir t yok daha doğrusal bir ilişki içinde olacak. İşte bunun bazı alıntıları:

6.3 Çoklu regresyon modellerinin takılması için bir strateji

(...)

Tüm açıklayıcı değişkenleri içeren dağılım grafiği matrisini inceleyin. (Bağımlı değişkeni dahil etmek, bu noktada isteğe bağlıdır. ) İlk olarak, açıklayıcı değişkenlerin birbirlerine karşı grafiğinde doğrusal olmama kanıtları olup olmadığına bakın.

(...)

Bu nokta, bir model arama stratejisini tanımlar - açıklayıcı değişkenler arasındaki regresyon ilişkilerinin "basit" doğrusal bir formu izlediği modeller arar . Bu nedenle, bazı çift parseller doğrusal olmama kanıtı gösteriyorsa, daha doğrusal ilişkiler sağlamak için dönüşüm (ler) i kullanmayı düşünün . Her ne kadar bu stratejiyi takip ederek regresyon ilişkisini yeterince modellemek mümkün olmasa da, bu, aşağıda verilen nedenlerle aramaya başlarken izlenmesi iyi bir stratejidir.

(...)

Açıklayıcı değişkenler arasındaki ilişkiler, belki de dönüşümden sonra yaklaşık olarak doğrusal ise, tahmin değişkenlerinin grafiklerini tepki değişkenine karşı güvenle yorumlamak mümkündür.

(...)

Panellerde gösterilen (çift) ilişkilerin doğrusal görünmesini sağlayan açıklayıcı değişkenlerin bir veya daha fazlasının dönüşümlerini bulmak mümkün olmayabilir. Bu, herhangi bir takılmış regresyon denklemi için teşhis alanlarının yorumlanması ve takılan denklemdeki katsayıların yorumlanması için problemler yaratabilir . Bkz. Cook ve Weisberg (1999).

Aktif olarak takip etmek yerine, bağımlı değişkenler arasındaki doğrusal ilişkilerden (çoklu doğrusallık riski nedeniyle) endişelenmemeliyim? Yaklaşık doğrusal olarak ilişkili değişkenlere sahip olmanın avantajları nelerdir?

Yazarlar bölümün ilerleyen kısımlarında çoklu bağlantı konusuna değinmektedir, ancak bu öneriler çoklu bağlantıdan kaçınmakla çelişmektedir.

Yanıtlar:


8

Burada iki nokta var:

  1. Pasaj, IV'lerin sadece doğrusal olmama kanıtı olduğunda doğrusallığa dönüştürülmesini önerir. IV'ler arasındaki doğrusal olmayan ilişkiler de eşdoğrusallığa neden olabilir ve daha merkezi olarak diğer ilişkileri karmaşıklaştırabilir. Kitaptaki tavsiyelere katıldığımdan emin değilim, ama saçma değil.

  2. Kuşkusuz çok güçlü doğrusal ilişkiler, eşdoğrusallığın nedenleri olabilir, ancak yüksek korelasyonlar, sorunlu eşdoğrusallığa neden olmak için ne gerekli ne de yeterlidir. Eşzamanlılığın teşhisi için iyi bir yöntem durum endeksidir.

Yoruma yanıt olarak DÜZENLE

Koşul indeksleri burada kısaca "maksimum öz değerin minimum öz değere bölünen karekökü" olarak tanımlanmaktadır . Özgeçmişte onları ve onların özelliklerini tartışan birkaç yazı var. Üzerlerindeki seminal metinler David Belsley'nin iki kitabıdır: Koşullandırma teşhisi ve Regresyon Teşhisi (yeni bir sürümü olan 2005 de).


1
+1 - iyi yanıt ama durum dizinini genişletebilir misiniz? Aday açıklayıcı değişkenlerde eşsizlik ile başa çıkmanın tatmin edici bir yolunu henüz bulamadım.
BGreene

Bilgilendirici cevap için teşekkür ederim. Lütfen, expl arasındaki doğrusal olmama nedeniyle diğer ilişkilerin neyi karmaşıklaştırdığını açıklayabilir misiniz? değişkenler? Ve şimdi yazarlar, expl arasındaki doğrusal olmayan ilişkilerin söylediklerinde ne hakkında konuştuklarını yapıyor musunuz? değişkenleri katsayıların ve tanı alanlarının yorumlanmasında sorunlara yol açabilir mi?
RicardoC

Şu anda bir örnek bulamıyorum, ama bunun olduğunu gördüm. Y ve X arasında doğrusal olmayan ilişkiler varmış gibi görünebilir
Peter Flom

3

Açıklayıcı değişkenlerin her biri ile bağımlı değişken arasındaki doğrusal ilişkiler, açıklayıcı değişkenler arasında doğrusal ilişkiler de sağlayacaktır. Tersi elbette doğru değildir.

Yaklaşık doğrusallık sağlamak için tasarlanan dönüşüm (ler) in kollearlığı artıracağı doğrudur. Bununla birlikte, bu tür dönüşümlerin yokluğunda, eşbiçimlilik gizlidir. Ortak doğrusallığın bu şekilde gizli tutulması konusunda ısrar etmek, basit bir denklem formunun mevcut olduğu karmaşık ve yorumlanamayan regresyon denklemine yol açabilir.

Varsayalım ki ybir doğrusal fonksiyonu yakın log(x1)bir durumda, burada x, 10 veya daha fazla bir faktör ile farklılık değerlerinin üzerinde değişmektedir. Daha sonra xbir regresör olarak kullanılırsa, diğer açıklayıcı değişkenler, eğer mümkünse, x1 ile olan ilişkideki doğrusal olmayanlığı hesaba katmak için çağrılır. Sonuç, mevcut tüm açıklayıcı gücü yakalayan basit bir regresyon denklemi yerine yorumlanamayan katsayılarla çok karmaşık bir regresyon ilişkisi olabilir.

1950-2012 yıllarında ABD üzerinde karaya düşen 94 Atlantik kasırgasının ölümleri hakkındaki verilerde kasırga adı etkisi konusunda bir kadınlık olduğunu iddia eden son makalede, doğrusal olarak ilişkili değişkenlerin bulunamaması ve bunlarla çalışılmamasının tuhaf sonuçları gösterilmektedir. Bkz. Http://www.pnas.org/content/111/24/8782.abstract . Veriler, ek bilgilerin bir parçası olarak mevcuttur. log(deaths)Bir normaL teorisi doğrusal modeliyle (R'nin fonksiyonu lm()) çalışmanın ve kullanılması , Jung ve arkadaşlarının negatif bir binom regresyon modeli kullanımına kabaca denktir.

Biri gerilirse log(E[deaths]), log(NDAM)açıklanacak minimum basınç değişkeni, kadınlık değişkeni ve etkileşimleri için hiçbir şey kalmaz. log(NDAM)Değil NDAM, değişken , minimum basınç değişkeniyle doğrusal olarak ilişkili bir dağılım grafiği matrisinde görünür. Dağılımı da çok daha az eğridir, simetrik çok daha yakındır.

Jung ve arkadaşları (normalize edilmiş hasar) ve diğer değişkenler ve etkileşimler log(E[deaths])üzerinde geriledi NDAM. Daha sonra ortaya çıkan denklem, ismin kadınlığının büyük bir etkiye sahip olduğu bir hikayeyi anlatmak için kullanıldı.

NDAMSonuç değişkeninin olduğu log(E[deaths]), çizim log(deaths+0.5)veya log(deaths+1)karşı olduğu bir regresyonda açıklayıcı değişken olarak ne kadar tuhaf olduğunu görmek için NDAM. Sonra birlikte arsa tekrarlamak log(NDAM)yerine NDAM. Jung ve diğerlerinin aykırı olarak atladığı Katrina ve Audrey plana dahil edilirse kontrast daha da çarpıcıdır. Jung ve ark., NDAMAçıklayıcı değişken olarak kullanmakta ısrar ederek, log(NDAM)çok basit bir regresyon ilişkisi formu bulma fırsatını kaçırmıştır.

NB E[deaths], model tarafından tahmin edilen ölümlerin sayısıdır.

Jung ve ark. Verilerinde, gerekli dönüşümler tüm değişkenlerin dağılım grafiği matrisinden tanımlanabilir. R spm()için araç paketinin en son sürümünde transform=TRUEve ile ( deathsdeğişken olarak) belki de R işlevini deneyin family="yjPower". Veya başlangıç ​​dağılım grafiği matrisi tarafından önerilen dönüşümleri deneyin. Genel olarak, tercih edilen tavsiye önce lineer öngörücüler gereksinimini karşılayan açıklayıcı değişkenleri aramak, sonra belki de araba işlevini kullanarak sonuç değişkenine katılmak olabilir invTranPlot().

Sorgulayan tarafından başvurulan "Veri Analizi ve R Kullanan Grafikler" e ek olarak:

  • Weisberg: Uygulamalı Doğrusal Regresyon. 4. baskı, Wiley 2014, s.185-203.
  • Fox ve Weisberg: Uygulamalı Regresyona R Arkadaşı. 2. baskı, Sage, 2011, s.127-148.

1

Bu pasajın düpedüz şüpheli olmasa bile oldukça şifreli olduğunu düşünüyorum. İdeal olarak, bağımlı değişkenlerin tahmininde modele artan ve ek bilgi sağlamak için bağımsız değişkenlerinizin birbirleriyle mümkün olduğunca ilişkisiz olmasını istersiniz. Çoklu değişkenlik konusunu bağımsız değişkenler arasındaki yüksek korelasyonlarla ortaya koyarsınız ve bu durumda bu konuyu gündeme getirme konusunda haklısınız.

Bağımsız değişkenlerin her biri ile bağımlı değişken arasındaki dağılım grafiğini ve ilgili doğrusal ilişkiyi incelemek daha önemlidir, ancak bağımsız değişkenler arasında değil. Böyle bir saçılma grafiğine (X ekseninden bağımsız ve Y eksenine bağımlı) bakıldığında, bağımsız değişkeni bir kütük, bir üs veya polinom formu aracılığıyla olsun daha iyi bir uyum gözlemlemek için dönüşüm fırsatları olabilir.


1
2. cümlenizde: Eğer bağımsız değişkenler tamamen ilişkisiz olsaydı, o zaman regresyon mantığının çoğu tartışmalı olurdu. Bir yordayıcının Y ile her iki değişkenli ilişkisi, diğer tüm yordayıcılar kontrol edildiğindekiyle aynı şekilde ortaya çıkacaktır. Bu durumda neden kontrol?
rolando2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.