Doğrusal modellerin varsayımları ve artıklar normal olarak dağıtılmazsa ne yapmalı


22

Doğrusal regresyon varsayımlarının ne olduğu konusunda biraz kafam karıştı.

Şimdiye kadar:

  • açıklayıcı değişkenlerin tümü yanıt değişkeni ile doğrusal olarak ilişkilidir. (Durum böyleydi)
  • açıklayıcı değişkenler arasında herhangi bir eşzamanlılık vardı. (çok az eşzamanlılık vardı).
  • Cook'un modelimin veri noktalarındaki mesafeleri 1'in altındadır (bu durumda, tüm mesafeler 0,4'ün altındadır, bu nedenle etki noktası yoktur).
  • kalıntılar normal olarak dağıtılır. (Durum bu olmayabilir)

Ama sonra aşağıdakileri okudum:

normallik ihlalleri genellikle ortaya çıkar, çünkü (a) bağımlı ve / veya bağımsız değişkenlerin dağılımlarının kendileri önemli ölçüde normal değildir ve / veya (b) doğrusallık varsayımı ihlal edilir.

Soru 1 Bu, bağımsız ve bağımlı değişkenlerin normal olarak dağıtılması gerektiği gibi görünmesini sağlar, ancak bildiğim kadarıyla durum böyle değildir. Bağımlı değişkenim ve bağımsız değişkenlerimden biri normalde dağılmaz. Olmalılar mı?

Soru 2 Kalanların QQnormal grafiğim şöyle:

kalıntıların normallik kontrolü

Bu normal bir dağılımdan biraz farklıdır ve aynı shapiro.testzamanda artıkların normal bir dağılımdan olduğuna dair sıfır hipotezini de reddeder:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Kalan değerler ve takılan değerler:

artıklar vs takılı

Artıklarım normal olarak dağıtılmazsa ne yapabilirim? Doğrusal modelin tamamen yararsız olduğu anlamına mı geliyor?


3
Artıklarınız ve yerleştirilmiş grafiğiniz bağımlı değişkeninizin bir alt sınırı olduğunu gösterir. Bu gördüğünüz desenleri yönlendirebilir. Bu, düşünebileceğiniz alternatif modeller için bir gösterge verebilir.
Maarten Buis

Yanıtlar:


25

Öncelikle, kendinize bu klasik ve ulaşılabilir makalenin bir kopyasını alıp okudum: Anscombe FJ. (1973) İstatistiksel analizde grafikler Amerikan İstatistikçi . 27: 17-21.

Sorularınız için:

Cevap 1: Ne bağımlı ne de bağımsız değişkenin normal olarak dağıtılması gerekmez. Aslında her türlü döngüsel dağılıma sahip olabilirler. Normallik varsayımı hataların dağılımı için geçerlidir ( ).YiY^i

Cevap 2: Aslında sıradan en küçük kareler (OLS) regresyonunun iki ayrı varsayımını soruyorsunuz:

  1. YXy=a+bxaybYXveya ikinci dereceden bir işlev, hatta bir noktada eğimi değiştiren düz bir çizgi). Doğrusalsızlığı ele almak için kendi tercih ettiğim iki aşamalı yaklaşımım (1) ve arasında belirli doğrusal olmayan fonksiyonel ilişkiler önermek için bir çeşit parametrik olmayan yumuşatma regresyonu yapmaktır (örneğin, LOWESS veya GAM s, vb. Kullanarak ), ve (2) doğrusal olmayanlıkları içeren çoklu bir regresyon (örneğin, ) veya X parametrelerinde doğrusal olmayanlar içeren doğrusal olmayan en küçük kareler regresyon modeli kullanarak fonksiyonel bir ilişki belirtmek için ve ör. , buradaYXX Y X + X 2 Y X + maks ( X - θ , 0 ) θ Y XXYX+X2YX+max(Xθ,0)θ üzerindeki regresyon çizgisinin eğimi değiştirdiği noktayı temsil eder ).YX

  2. Diğeri, normal olarak dağıtılan artıkların varsayımıdır. Bazen bir OLS bağlamında normal olmayan kalıntılarla geçerli bir şekilde kurtulabilir; bkz., Lumley T, Emerson S. (2002) Büyük Halk Sağlığı Veri Kümelerinde Normallik Varsayımının Önemi . Halk Sağlığının Yıllık Değerlendirmesi . 23: 151-69. Bazen, bir daha olamaz (yine Anscombe makalesine bakın).

Ancak, OLS'taki varsayımları verilerinizin istenen özellikleri kadar değil, doğayı tanımlamak için ilginç çıkış noktaları olarak düşünmenizi tavsiye ederim. Sonuçta, dünyada önemsediğimiz şeylerin çoğu -kesin ve eğimden daha ilginç . OLS varsayımlarını yaratıcı bir şekilde ihlal etmek (uygun yöntemlerle) daha ilginç sorular sormamıza ve cevaplamamıza olanak tanır.y


2
Teşekkürler! Bazı istatistik dersinin slaytlarında, varsayımlar başarısız olursa Y'yi veya açıklayıcı değişkenleri dönüştürmeyi deneyebileceğiniz söylenir. Y'yi örneğin lm (Y ^ 0.3 ~ + X1 + X2 + ...) yaparak dönüştürdüğümde, artıklarım normal olarak dağıtılır. Bu yapılacak geçerli bir şey mi?
Stefan

@Stefan Evet! Bir yanıtı dönüştürmek genellikle iyi bir şeydir logve basit güç dönüşümleri yaygındır.
Gregor - Monica'yı eski durumuna getirdi

@Stefan Belki, belki değil. Sonuçlarınızı dönüştürürseniz, dönüştürülmüş ilişkilere dayanan çıkarımlarınız, analizinizi yaptıktan sonra ters dönüşümler için geçerli olmayabilir; Bunun nedeni . , önemli bir bulunması, önemli bir anlamına gelmez veya CI mutlaka .Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX
Alexis

@Alexis: Bu sayfalar neden değişkenlerin normal olarak dağıtılması gerektiğini söylüyor? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

İlk sorunlarınız

  • güvencelerinize rağmen, kalan arsa, koşullu beklenen yanıtın takılan değerlerde doğrusal olmadığını gösterir; ortalama için model yanlış.

  • sürekli bir varyansınız yok. Varyans modeli yanlış.

oradaki problemlerle normalliği bile değerlendiremezsiniz .


Lütfen parsellere bakarak doğrusallık konusunda nasıl sonuca varacağınızı açıklayın. Homoskedastisite varsayımının burada karşılanmadığını anlıyorum.
Dr Nisha Arora

y^y^=30060<00303060>60), düz bir çizgiyle ilgili en iyi tahmininizi yapın. Ben böyle bir şey vererek hatlarını kombine yüzden benim için orta iki, neredeyse rastlantı eseri olan bu
Glen_b -Reinstate Monica

Orta yarıda, artıkların neredeyse tamamı negatif, dış kısımlarda hemen hemen tüm artıklar pozitiftir. Bunlar rastgele artıkların görünüşü değil.
Glen_b

Teşekkürler, @Glen_b. Uzun bir boşluktan sonra, kavramlarımı ilk etapta görselleştirememek için tekrar gözden geçiriyorum.
Dr Nisha Arora

Burada devam edecek çok şey olmasa da, orijinal verilerin negatif olmadığını ve genelleştirilmiş doğrusal bir model (belki de log-linkli bir gama) veya bir dönüşüm (muhtemelen bir log-dönüşüm) daha uygun bir seçim olacağını düşünüyorum. .
Glen_b

3

Doğrusal modelin tamamen işe yaramaz olduğunu söyleyemem. Ancak bu, modelinizin verilerinizi doğru / tam olarak açıklamadığı anlamına gelir. Modelin "yeterince iyi" olup olmadığına karar vermeniz gereken bir kısım var.

İlk sorunuz için, doğrusal bir regresyon modelinin bağımlı ve bağımsız değişkenlerinizin normal olması gerektiğini varsaydığını düşünmüyorum. Bununla birlikte, artıkların normalliği hakkında bir varsayım vardır.

İkinci sorunuz için düşünebileceğiniz iki farklı şey var:

  1. Farklı modelleri kontrol edin. Verilerinizi açıklamak için başka bir model daha iyi olabilir (örneğin, doğrusal olmayan regresyon, vb.). Yine de, bu "yeni model" in varsayımlarının ihlal edilmediğini kontrol etmeniz gerekir.
  2. Verileriniz, yanıtı (sonucu) açıklamak için yeterli ortak değişken (bağımlı değişkenler) içeremez. Bu durumda, başka bir şey yapamazsınız. Bazen, artıkların farklı dağılımları (örn. T-dağılımı) takip edip etmediğini kontrol etmeyi kabul edebiliriz, ancak sizin için böyle görünmüyor.

Sorunuza ek olarak, QQPlot'unuzun "normalleştirilmiş" olmadığını görüyorum. Kalıntılarınız standart hale geldiğinde arsaya bakmak genellikle daha kolaydır, bkz. Stdres .

stdres(lmobject)

Umarım size yardımcı olur, belki başka biri bunu benden daha iyi açıklar.


0

Önceki cevaba ek olarak, modelinizi geliştirmek için bazı noktalar eklemek istiyorum:

  1. Bazen artıkların normallik olmaması aykırı değerlerin varlığına işaret eder. Bu durumda, önce aykırı değerlere dokununuz.

  2. Amaçları çözmek için bazı dönüşümler kullanıyor olabilirsiniz.

  3. Buna ek olarak, çoklu doğrusallık ile başa çıkmak için https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution


-1

İkinci sorunuz için,

Uygulamada başıma gelen bir şey, tepkime birçok bağımsız değişkenle fazla uyum sağladığımdı. Aşırı takılmış modelde normal olmayan kalıntılar vardı. Her ne kadar, sonuçlar bazı katsayıların sıfır olma olasılığını gösteren (p değerleri 0.2'den büyük olan) kanıt bulunmadığını kanıtladı. İkinci bir modelde, geriye doğru seçim prosedürünü takiben değişkenleri reddetmek, normal bir artık hem qqplot ile hem de Shapiro-Wilk testi ile hipotez testi ile doğrulanmış oldu. Bunun sizin durumunuz olup olmadığını kontrol edin.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.