Doğrusal model Değişen varyans


10

Aşağıdaki doğrusal model var:

Doğrusal model kalıntıları Gözlem dağılımı

Kalıntıların heterosensedastisitesini ele almak için bağımlı değişkene bir log dönüşümü olarak uygulamaya çalıştım fakat artıklar üzerinde aynı fan çıkışı etkisini görüyorum. DV değerleri nispeten küçüktür, bu nedenle günlüğü almadan önce +1 sabit ilavesi bu durumda muhtemelen uygun değildir.log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Özellikle en sağdaki değerler için tahmin hatasını ve varyansı iyileştirmek için değişkenleri nasıl dönüştürebilirim?

Yanıtlar:


11

Amacın ne? Heteroskedastisitenin katsayı tahminlerimize ağırlık vermediğini biliyoruz; sadece standart hatalarımızı yanlış yapar. Bu nedenle, sadece modelin uyumunu önemsiyorsanız, heteroskedastisite önemli değildir.

Sen daha verimli bir modeli (alabilirsiniz yani sen ağırlıklı en küçük kareler kullanırsanız, daha küçük standart hataları ile bir). Bu durumda, her bir gözlem için varyansı tahmin etmeniz ve her bir gözlemi o gözleme özgü varyansın tersi ile ( weightsargümanın durumunda lm) ağırlıklandırmanız gerekir . Bu tahmin prosedürü tahminlerinizi değiştirir.

Alternatif olarak, tahminlerinizi değiştirmeden heteroskedastisite için standart hataları düzeltmek için sağlam standart hataları kullanabilirsiniz. Bir İçin Ruygulamada, paket bkz sandwich.

Günlük dönüşümünü kullanmak, heteroskedastisite düzeltmek için iyi bir yaklaşım olabilir, ancak yalnızca tüm değerleriniz pozitifse ve yeni model, sorduğunuz soruya göre makul bir yorum sağlıyorsa.


Öncelikli hedefim hataları azaltmak. Ağırlıklı en küçük karelere bakmam gerekecek, ancak daha yüksek takılmış değerler için artık varyansın ne kadar düzenli arttığı göz önüne alındığında, DV dönüşümünün doğru adım olduğu izlenimi altındaydım.
Robert Kubrick

Ne demek "hataları azaltmak"? Ortalama hata 0'dır. Arsaya baksanız bile, seçtiğiniz herhangi bir pencerede ortalama 0'dır.
Charlie

Demek istediğim, modelin tahminini iyileştirmek, yani özellikle daha yüksek takılmış değerler için, mutlak hatayı ve hata varyansını azaltmak.
Robert Kubrick

1
Eğer dönüştürmek olduğunu varsayalım Varyans azaltır şekilde. Eğer tahmin etmek istiyorsanız , sen heteroskedasticity sorun geri getiren bu dönüşümünün tersini uygulamak gerekir. Dönüşümler önemsediğiniz tüm katsayıları ise iyidir, ama ne yapacağı tahmin etmeye çalışıyorsanız yardım edecek değildir . y yyyy
Charlie

1
Sanırım dönüştürülmüş tahmin etmek istemiyorsunuz , değil mi? Etkili, senin dönüşümü arasındaki mesafeyi küçültmek zorunda kalacak orijinal ölçekte 's. Dönüştürülmüş ölçek üzerinde, dönüştürülmüş değerleri boyunca benzer genişliğe sahip tahmin aralıkları oluşturursunuz , ancak dönüşümü geri aldığınızda, tahmin aralıkları orijinal ölçeğine uzatılır . y y yyyyy
Charlie

4

Box-Cox dönüşümünü denemek istersiniz . Güç dönüşümünün bir versiyonudur:

˙y

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
burada verinin geometrik ortalamasıdır. Yanıt değişkeninin bir dönüşümü olarak kullanıldığında, nominal rolü, verileri normal dağılıma daha yakın hale getirmektir ve çarpıklık, verilerin normal görünmemesinin başlıca nedenidir. Dağılım grafiğinizle ilgili hislerim, açıklayıcı ve yanıt değişkenlerine (bazılarına) uygulanması gerektiğidir.y˙

Daha önceki bazı tartışmalar arasında , karekök, kütük vb. ve Sıfırlar dahil negatif olmayan verileri nasıl dönüştürmeliyim? . R kodunu R'de bir istatistiksel prosedür nasıl aranır? Bölümünde bulabilirsiniz.

Ekonometristler, Halbert White'ın (1980) heteroskedastisiteye karşı sağlam çıkarımsal prosedürler (aslında bir istatistikçi F. Eicker (1967) tarafından daha önce yeniden anlatmışlar) üzerine yaptığı çirkin çalışmalardan sonra heteroskedastisite hakkında rahatsız etmeyi bıraktılar. Az önce yazdığım Wikipedia sayfasına bakın .


Teşekkürler, bu noktada hataları azaltmak ve tahmin aralıklarını iyileştirmek için bir güç dönüşümü uygulayıp uygulamadığımı veya sağlam regresyon kullanıp kullanmadığımı tartışıyorum. İki tekniğin nasıl karşılaştırıldığını merak ediyorum. Ayrıca dönüşümü kullanırsam tahmin edilen değerleri geri dönüştürmem gerekir. Açık bir formül gibi görünmüyor, değil mi?
Robert Kubrick

Sağlam regresyon ile, @StasK'ın açıkladığı gibi sağlam standart hataları kastediyorsanız, artıklar / hatalar hiç değişmez. Katsayılar OLS ile tamamen aynıdır ve tam olarak aynı kalıntıları verir. Katsayıların standart hataları değişir ve genellikle OLS SE'lerden daha büyüktür. Tahmin aralıkları, katsayılarınız için doğru standart hataları kullandığınız için geliştirildi (ancak OLS'dekilere göre daha büyük olmalarına rağmen). Amacınız y'yi tahmin , gerçekten doğrusal modele bağlı kalmalı ve cevabımda bahsettiğim teknikleri kullanmalısınız. y
Charlie

@Charlie Yani en.wikipedia.org/wiki/Robust_regression . Bu konuda yeniyim, ancak güçlü regresyonun tahmin tekniğini değiştirdiğini anlıyorum, bu nedenle artıklar farklı olmalı.
Robert Kubrick

Doğru, bu farklı bir yöntem ve tahminlerinizi değiştiriyor. Güçlü regresyonun aykırı durumlara daha uygun olduğunu düşünüyorum. Hangi güçlü regresyon sürümünü kullanmaya karar verdiğinize ve veri setinize bağlı olarak, OLS'a göre daha geniş güven aralıkları alabilirsiniz.
Charlie

1

Zaman serisi verilerinde bağımlı değişkenlerle ilişkili heteroskedastisite sorununa çok basit bir çözüm vardır. Bunun bağımlı değişkeniniz için geçerli olup olmadığını bilmiyorum. Nominal Y kullanmak yerine, önceki döneme göre cari döneme göre Y'deki% değişim olarak değiştirin. Örneğin, nominal Y'nizin en güncel dönemde 14 trilyon dolarlık GSYİH olduğunu varsayalım. Bunun yerine, en son dönemde GSYİH'daki değişikliği hesaplayın (diyelim% 2,5).

Nominal bir zaman serisi her zaman büyür ve her zaman heteroskedastiktir (hatanın varyansı zaman içinde büyür çünkü değerler büyür). % Değişim serisi tipik olarak homoskedastiktir, çünkü bağımlı değişken hemen hemen sabittir.


Kullandığım değerleri, önceki döneme göre% dizi zaman serisidir. Y
Robert Kubrick

Bu şaşırtıcı. Genellikle,% değişim değişkenleri heteroskedastik değildir. Kalanların düşündüğümüzden daha az heteroskedastik olup olmadığını merak ediyorum. Ve altta yatan mesele aykırı değerlerden biri. % 0.15 aralığında çıkarılırsa tüm grafiğin daha az heteroskedastik görünmesini sağlayacak 4 veya 5 gözlem görüyorum. Ayrıca, diğerlerinin de belirttiği gibi, heteroskedastisite regresyon katsayılarınızı değil, sadece güven aralıklarınızı ve ilgili standart hatayı bozacaktır. Bununla birlikte, grafiğinize bakıldığında, CI'lerin çok fazla etkilenmeyebileceği görülmektedir. Ve yine de faydalı olabilir.
Sympa
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.