Regresyon: koşullu kalıntılar yerine neden genel kalıntıların test normallerinde ?


10

Doğrusal regresyonda, hataların y'nin öngörülen değerine bağlı olarak normal olarak dağıtıldığı varsayılmaktadır. Sonra artıklara hatalar için bir tür vekil olarak bakıyoruz.

Genellikle böyle çıktı üretmek için tavsiye edilir: resim açıklamasını buraya girin. Ancak, her veri noktası için kalıntıyı elde etmenin ve bunu tek bir grafikte birleştirmenin ne anlama geldiğini anlamıyorum.

Her bir öngörülen y değerinde normal artıklarımız olup olmadığını düzgün bir şekilde değerlendirmek için yeterli veri noktalarına sahip olmamızın mümkün olmadığını anlıyorum.

Bununla birlikte, normal artıkların genel olarak ayrı bir olup olmadığımız ve y'nin öngörülen her bir değerindeki normal artıkların model varsayımı ile açıkça ilgili olmayan bir soru değil mi? Oldukça normal olmayan toplam kalıntılara sahipken, tahmin edilen her bir y değerinde normal artıklara sahip olamaz mıydık?


1
Konsepte biraz değer olabilir - belki de önyükleme burada yardımcı olabilir (artıkların çoğaltılması için)
olasılık

2
Doğrusal regresyonda hataların normal y olarak dağıtıldığı, y değerinin öngörülen değerine (varsa) bağlı olarak referans verebilir misiniz ?
Richard Hardy

Soruyu gönderdiğimde aklıma özel bir kaynağım yoktu, ancak "modelleme varsayımı, tepki değişkeninin normalde regresyon çizgisi etrafında (ki koşullu ortalamanın bir tahmini) sabit varyansla dağıtıldığı" dan burada . Bu konuda yanılıyorsam daha fazla geribildirim hoş geldiniz.
user1205901 - Monica'yı

Yanıtlar:


17

Oldukça normal olmayan toplam kalıntılara sahipken, tahmin edilen her bir y değerinde normal artıklara sahip olamaz mıydık?

Hayır - en azından hataların varyansının sabit olduğu standart varsayımı altında değil.

Genel kalıntıların dağılımını normal dağılımların bir karışımı olarak düşünebilirsiniz (her bir seviyesi için bir tane ). Varsayımla, bu normal dağılımların tümü aynı ortalamaya (0) ve aynı varyansa sahiptir. Bu nedenle, bu normal karışımının dağılımı sadece normal bir dağılımdır.y^

Yani bundan biraz syllogism oluşturabiliriz. X yordayıcısının değerleri verilen münferit dağılımlar normalse (ve varyansları eşitse), toplam artıkların dağılımı normaldir. Dolayısıyla, toplam artıkların dağılımının normal olmadığı gözlemlenirse , bu X verilen dağılımların eşit varyansla normal olmadığı anlamına gelir. Bu standart varsayımların ihlalidir.


1
p(ε)=p(ε|x)p(x)dxp(ε|x)p(ε)p(x)y^=β0+β1Xy^X

Normal olmayan marjinallerin normal olmayan koşulları "reddetmemize" izin verdiğini söylemek normal midir, ancak normal marjinaller normal koşulları "kabul etmemize" izin vermez mi?
shadowtalker

6
p(ε|x)=p(ε)p(ε)N-(0,σ2)N-(0,σ2)
Bill

1
ε | X~N-(0,σ2)ε~N-(0,σ2)

@ssdecontrol Yanıttan: " X yordayıcısının değerleri verilen bireysel dağılımlar normalse (ve varyansları eşitse), genel artıkların dağılımı normaldir. " Ne kadar açık olabileceğimden emin değil misiniz?
Jake Westfall

3

Bu edilmiş söyledihatalar homoscedastik ve seri olarak ilintisiz olduğunda, y'deki (OLS) normal en küçük kareler doğrusal yansız tahminciler sınıfında en uygunudur. Homoscedastik kalıntılar ile ilgili olarak, kalıntıların varyansı, x-ekseni üzerindeki artık büyüklüğün varyasyonunu ölçeceğimiz yerden bağımsızdır. Örneğin, ölçümümüzün hatasının, y değerlerini artırmak için orantılı olarak arttığını varsayalım. Daha sonra, regresyon gerçekleştirmeden önce bu y değerlerinin logaritmasını alabiliriz. Bu yapılırsa, uyum kalitesi, bir logaritma almadan orantılı bir hata modelinin takılmasına kıyasla artar. Genel olarak homossedastisite elde etmek için, y veya x ekseni verilerinin, logaritma (lar), kare veya kare kökün karşılığını almamız veya bir üstel uygulamamız gerekebilir. Buna bir alternatif, bir ağırlıklandırma fonksiyonu kullanmaktır,(y-model)2y2(y-model)2

Bu kadarını söyledikten sonra, artıkların daha homoscedastik hale getirilmesinin onları daha normal bir şekilde dağıttığı, ancak sıklıkla homoscedastik özelliğin daha önemli olduğu görülür. Bu sonuncusu, regresyonu neden yaptığımıza bağlı olacaktır. Örneğin, verilerin kare kökü logaritmayı almaktan daha normal bir şekilde dağıtılırsa, ancak hata orantılı tipse, logaritmanın t testi, popülasyonlar veya ölçümler arasındaki bir farkı tespit etmek için, ancak beklenen bulmak için yararlı olacaktır. Verilerin karekökünü kullanmalıyız, çünkü verilerin sadece karekökü ortalama, mod ve medyanın eşit olması beklenen simetrik bir dağılımdır.

Dahası, sık sık bize y ekseni değerlerinin en az hata tahmincisini veren bir cevap istemediğimiz ortaya çıkar ve bu gerilemeler büyük ölçüde önyargılı olabilir. Örneğin, bazen x cinsinden en az hatayı geri almak isteyebiliriz. Ya da bazen y ve x arasındaki ilişkiyi ortaya çıkarmak isteriz, bu da o zaman rutin bir regresyon problemi değildir. Daha sonra Theil'i, yani medyan eğimi, regresyonu, x ve y en az hata regresyonu arasındaki en basit uzlaşma olarak kullanabiliriz. Ya da hem x hem de y için tekrarlanan ölçümlerin varyansının ne olduğunu bilirsek, Deming regresyonunu kullanabiliriz. Theil regresyonu, sıradan regresyon sonuçlarına korkunç şeyler yapan çok aykırı değerlerimiz olduğunda daha iyidir. Medyan eğim regresyonu için artıkların normal dağılıp dağılmadığı çok az önemlidir.

BTW, artıkların normallik derecesi bize herhangi bir yararlı doğrusal regresyon bilgisi vermez.Örneğin, iki bağımsız ölçümün tekrar ölçümlerini yaptığımızı varsayalım. Bağımsızlığımız olduğundan, beklenen korelasyon sıfırdır ve regresyon çizgisi eğimi, yararlı eğimi olmayan herhangi bir rastgele sayı olabilir. Konum tahmini, yani ortalama (veya medyan (bir zirve ile Cauchy veya Beta dağılımı) veya en genel olarak bir popülasyonun beklenen değeri) ve bunu x ve varyansta bir varyans hesaplamak için ölçümleri tekrarlıyoruz. y'de, Deming regresyonu için ya da her neyse kullanılabilir. Dahası, eğer orijinal popülasyon normal ise süperpozisyonun normal olduğu varsayımı bizi faydalı doğrusal regresyona götürmez. Bunu daha da ileriye taşımak için, daha sonra başlangıç ​​parametrelerini değiştirdiğimi ve farklı Monte Carlo x ve y değeri fonksiyonu üreten konumlarla yeni bir ölçüm oluşturduğumu ve bu verileri ilk çalıştırma ile harmanladığımı varsayalım. Daha sonra artıklar her x-değerinde y-yönünde normaldir, ancak x-yönünde, histogramda OLS varsayımlarına katılmayan iki tepe noktası olacaktır ve eğim ve kesişimimiz önyargılı olacaktır çünkü x ekseni üzerinde eşit aralık verisi yok. Bununla birlikte, toplanan verilerin gerilemesi artık kesin bir eğime ve kesişmeye sahipken, daha önce yoktu. Dahası, tekrar örnekleme ile sadece iki noktayı gerçekten test ettiğimiz için doğrusallığı test edemeyiz. Gerçekten de korelasyon katsayısı aynı nedenden dolayı güvenilir bir ölçüm olmayacak,

Tersine, bazen ek olarak, hataların regresörlere bağlı olarak normal dağılıma sahip olduğu varsayılır. Belirli ek sonlu örneklem özellikleri (özellikle test hipotezler alanında) yapar durumda kurulabilir rağmen bu varsayım, EKK yönteminin geçerliliği için gerekli değildir, bkz burada. O zaman OLS doğru regresyonda mı? Örneğin, her gün kapanışta hisse senedi fiyatlarının ölçümlerini tam olarak aynı zamanda yaparsak, t ekseni (Think x-axis) varyansı yoktur. Bununla birlikte, son ticaretin (yerleşim) zamanı rastgele dağıtılacak ve değişkenler arasındaki İLİŞKİ'yi keşfetme gerilemesi her iki varyasyonu da içermelidir. Bu durumda, y'deki OLS yalnızca y değerindeki en küçük hatayı tahmin edecektir, bu da o anlaşmanın zamanının da tahmin edilmesi gerektiğinden, bir yerleşim için alım satım fiyatını tahmin etmek için kötü bir seçim olacaktır. Ayrıca, normal olarak dağıtılan hata bir Gama Fiyatlandırma Modelinden daha düşük olabilir .

Bunun ne önemi var? Bazı hisse senetleri dakikada birkaç kez işlem görürken, diğerleri her gün, hatta her hafta işlem görmez ve oldukça büyük bir sayısal fark yaratabilir. Bu yüzden hangi bilgileri istediğimize bağlı. Pazarın yarın kapanışta nasıl davranacağını sormak istiyorsak, bu bir OLS "tipi" sorudur, ancak cevap doğrusal olmayan, normal olmayan kalıntı olabilir ve ekstrapolasyon için doğru eğriliği oluşturmak için uygun türevleri (ve / veya daha yüksek anları) kabul eden şekil katsayılarına sahip bir uyum fonksiyonu gerektirebilir. . (Örneğin kübik kamalar kullanarak türevlerin yanı sıra bir fonksiyona da sığabilir, bu nedenle türev anlaşması kavramı nadiren araştırılsa bile bir sürpriz olarak gelmemelidir.) Para kazanıp kazanamayacağımızı bilmek istiyorsak belirli bir stokta, sorun daha sonra iki değişkenli olduğu için OLS kullanmıyoruz.


1
Geçerli bir çıkarım için normalliğin yeterli olduğunu ancak gerekli olmadığını söyleyebilir misiniz? Neden sadece özel olarak hetero-esnekliği test etmiyoruz? Elbette artıkların ağır kuyruklu (örneğin) marjinal dağılımı şartlı normallik varsayımının yanlış olduğu anlamına gelmez, değil mi? Ancak, ağır kuyruklu artıklar tasarım gereği artıklar için bir normallik testi başarısız olur.
shadowtalker

T testi için homoscedasticity genellikle daha önemlidir. Aykırı değerler 1.359 SD >> IQR yapar, bu nedenle t-testinin gücünü azaltır. Sonra yeniden dağıtım veya Wilcoxon testini deneyin; bu, dağıtım türüne veya hetero-esneklik derecesine bakılmaksızın çoğu durumda (belki r> 0.9999 olduğunda değil) çalışır. Aslında, birkaç benzer parametreyi test ediyorsanız, Wilcoxon veya t-testi düşük ve yüksek olasılıkları sıralamak için daha iyi çalışacaktır, bu nedenle verilerin kendisi genellikle neyin daha yararlı olduğunu beyan eder.
Carl

Bunu 1.349 SD >> IQR yapın. 1.349, normal dağılımın bir çeyrekler arası aralık (IQR) için sahip olduğu SD sayısıdır. Cauchy dağılımı veya bir öğrencinin iki serbestlik derecesine sahip t gibi bazı dağılımlarda SD yoktur, aykırı değerler bunu öldürür, ancak IQR'leri vardır ve daha sonra konum testleri için Wilcoxon veya diğer parametrik olmayan testleri kullanır.
Carl

Daha fazla düşünce üzerine (cevaptaki yeni materyale bakınız) y ekseni artıklarının normallerine sahip olmak güzel, ancak yetersizdir.
Carl

Ağır kuyruklu dağılımlar regresyon denklemlerine korkunç şeyler yapar. Örneğin, bir veri setinde bir inceler tüm olası tesisi, bir genellikle pistleri Cauchy dağılımı alırsa AKA Student's- t serbestlik derecesi ile. Cauchy dağılımı için hiçbir an yoktur. Yani, bir ortalama ve standart sapma hesaplanabilir ve ne kadar çok veri olursa, ortalama ve standart sapma o kadar düzensiz hale gelir. Cauchy dağılımının beklenen değeri medyan ve ortalama bir değer hesaplamak için aşırı değerleri sansürlemek zorunda kalacaktır.
Carl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.