Hetero-esneklikle baş etmenin en iyi yolu?


19

Heterosedastisitenin çok açık olduğu takılan değerlerin fonksiyonu olarak doğrusal bir modelin artık değerlerinin bir grafiğine sahibim. Ancak şu an nasıl ilerlemem gerektiğinden emin değilim çünkü anladığım kadarıyla bu hetero-esneklik doğrusal modelimi geçersiz kılıyor. (Bu doğru mu?)

  1. Görünüşe göre heterosensedastisiteye karşı sağlam olduğu rlm()için MASSpaketin işlevini kullanarak sağlam lineer bağlantı parçası kullanın .

  2. Hetero-esneklik nedeniyle katsayılarımın standart hataları yanlış olduğundan, standart hataları heteroscedastisiteye sağlam olacak şekilde ayarlayabilir miyim? Stack Overflow'da yayınlanan yöntemi kullanarak: Heteroskedasticity ile Regresyon Standart Hatalar Düzeltildi

Benim sorunumla başa çıkmak için en iyi yöntem hangisidir? Çözüm 2'yi kullanırsam, modelimin tahmin etme yeteneği tamamen işe yaramaz mı?

Breusch-Pagan testi varyansın sabit olmadığını doğruladı.

Takılan değerlerin işlevindeki kalıntılarım şöyle:

https://i.gyazo.com/9407a829a168492b31dfa3d1dd33a21d.png

(daha büyük sürüm)


Şunu mu demek istediniz: 'stackexchange' yerine 'stackoverflow'? (hala burada stackexchange'teyseniz.) SO ise, ikinci bir kopya göndermekten ziyade soruyu taşımak genellikle daha iyidir (yardım, aynı Q'yu birden çok kez göndermemeyi, ancak en iyi yeri seçmeyi ister).
Glen_b

Yayılmadaki değişiklik o kadar fazla değildir ki, etki şiddetli olacaktır (yani, standart hatalarınızı ve dolayısıyla etki çıkarımınızı saptırırken, muhtemelen büyük bir fark yaratmayacaktır). Yayılmanın ortalama ile ilgili olup olmadığını düşünmeye meyilliyim ve belki de bir GLM'ye veya muhtemelen dönüşüme bakalım (elbette takılmışla ilgili görünüyor). Y değişkeni nedir?
Glen_b

2
Başka bir olasılık, örneğin, glsnlme paketinden varyans yapılarından birini kullanarak varyanssal esnekliği modellemektir.
Roland

Yanıtlar:


18

Bu iyi bir soru, ama bence yanlış soru. Rakamınız, hetero-esneklikten daha temel bir sorununuz olduğunu açıkça ortaya koymaktadır; yani, modelinizde dikkate almadığınız bir doğrusal olmayanlık vardır. Bir modelin sahip olabileceği potansiyel sorunların birçoğu (doğrusal olmayanlık, etkileşimler, aykırı değerler, hetero-esneklik, Normalliksizlik) birbirleri gibi maskeleyebilir. Zor ve hızlı bir kural olduğunu sanmıyorum, ancak genel olarak sırayla problemlerle uğraşmayı öneririm

outliers > nonlinearity > heteroscedasticity > non-normality

(örneğin, uygunluğu inceleyen garip gözlemlerin olup olmadığını kontrol etmeden önce doğrusal olmama konusunda endişelenmeyin; heteroseladastisite konusunda endişelenmeden önce normalite konusunda endişelenmeyin).

Bu özel durumda, ikinci dereceden bir modele y ~ poly(x,2)(veya poly(x,2,raw=TRUE)veya y ~ x + I(x^2)sorunun çözülüp çözülmediğine bakarım) uyurum .


Arsa küçük ve eksenler etiketlenmemiş. Bu bir arsa vs monte arsa olup olmadığını bilmiyorum. OP'nin kare şeklinde bir terim içerdiğini varsaydım, örneğin. Değilse, açıkça haklısın.
gung - Monica'yı eski

1
tarayıcımda y ekseni aralığının
-4'ten

1
Merhaba Ben, ne yaptığını seviyorum. "Aykırı değerlerin" en büyük sorun olduğu fikrini genişletebilir misiniz? Küçük bir kalıntıları olsa bile, tek yüksek kaldıraç noktalarını "aykırı değerler" olarak ekliyor musunuz? Çalışma alanımda her zaman aşırı değer gözlemleri ile uğraşıyorum (çevre istatistikleri) ve bazı insanların (özellikle EPA) orantısız olarak aykırı uçları uçurma eğiliminde olduğunu (isteyerek olmayan cezaları affedin) ve istekli olmanın yollarını buldum onları hariç tutmak için. Açıkça veri (toplama, giriş) hatasının sonucu olduğuna dair iyi kanıt bulamazsam, aykırı değerlere karşı hoşgörülü bir tutum benimseme eğilimindeyim.
Dalton Hance

1
@DaltonHance: Muhtemelen aynı sayfadayız. Demek istediğim, eğer aykırı değerleriniz varsa (tanım ne olursa olsun) ve kullandığınız istatistiksel model / yaklaşım (karışım modelleri, sağlam istatistikler, yağlı kuyruklu dağılımlar, vb.) Tarafından dikkate alınmazsa , teşhisinizin geri kalanını bertaraf etme eğiliminde olacaktır - artıkların doğrusal olmayan / heterossedastik / Normal olmayan görünmesini sağlayacaktır. Onları düşünmeden / refleks olarak atmamanız gerektiğine kesinlikle katılıyorum.
Ben Bolker

8

RBurada heteroseladastisite ile başa çıkmak için bir dizi yöntemi listeliyorum ( örneklerle): Heteroskedastik veriler için tek yönlü ANOVA'ya alternatifler . Bu önerilerin çoğu daha az ideal olacaktır, çünkü çok düzeyli bir kategorik değişken yerine tek bir sürekli değişkeniniz vardır, ancak yine de bir genel bakış olarak okumak güzel olabilir.

Durumunuz için, ağırlıklı en küçük kareler (bazı aykırı değerlerden şüpheleniyorsanız belki de güçlü regresyon ile birlikte) makul bir seçim olacaktır. Huber-White sandviç hatalarını kullanmak da iyi olur.

Özel sorularınızın yanıtlarını aşağıda bulabilirsiniz:

  1. Sağlam regresyon uygulanabilir bir seçenektir, ancak bence ağırlıklar ile eşleştirilirse daha iyi olur. Heterosedastisitenin dış değerlerden kaynaklanmasından endişe etmiyorsanız, sadece ağırlıklar ile düzenli doğrusal regresyon kullanabilirsiniz. Varyansın aykırı değerlere karşı çok hassas olabileceğini ve sonuçlarınızın uygunsuz ağırlıklara duyarlı olabileceğini unutmayın, bu nedenle son model için sağlam regresyon kullanmaktan daha önemli olan, ağırlıkları tahmin etmek için sağlam bir dağılım ölçüsü kullanmak olacaktır. Bağlantılı iş parçacığında, örneğin 1 / IQR kullanıyorum.
  2. Hetero-esneklik nedeniyle standart hatalar yanlıştır. Standart hataları Huber-White sandviç tahmincisi ile ayarlayabilirsiniz. @GavinSimpson'un bağlı SO iş parçacığında yaptığı şey budur.

XX


1
lmrob paketinden güçlü regresyon kullanmak otomatik olarak bazı ağırlıkları çıkarır, neden # 1 yerine bunları kullanmıyorsunuz?
tool.ish

1

sandwich packageRegresyonunuzun var-cov matrisini yükleyin ve hesaplayın var_cov<-vcovHC(regression_result, type = "HC4")(kılavuzunu okuyun sandwich). Şimdi fonksiyonunu lmtest packagekullanın coeftest:

coeftest(regression_result, df = Inf, var_cov)

0

Verilerinizin dağılımı nasıl görünüyor? Hiç bir çan eğrisi gibi mi görünüyor? Konudan, normal olarak hiç dağıtılabilir mi? Örneğin, bir telefon görüşmesinin süresi negatif olmayabilir. Bu özel çağrı durumunda bir gama dağılımı bunu iyi açıklar. Ve gama ile genelleştirilmiş doğrusal model kullanabilirsiniz (R'de glm)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.