OLS artıkları normal dağılmadığında gerileme


43

Bu sitede , OLS artıklarının asimptotik olarak normal dağılım gösterip göstermediğini nasıl belirleyeceğimizi tartışan birkaç konu var . Artıkların R kodlu normalliklerini değerlendirmenin başka bir yolu da bu mükemmel cevapta verilmiştir . Bu, standart hale getirilmiş ve gözlemlenen artıklar arasındaki pratik farkla ilgili başka bir tartışmadır .

Ancak diyelim ki artıkların normalde dağıtılmadığını, bu örnekte olduğu gibi . Burada birkaç bin gözlemimiz var ve açıkça normal dağılmış kalıntı varsayımını reddetmeliyiz. Sorunu çözmenin bir yolu, cevabında açıklandığı gibi bir tür sağlam tahmin edici kullanmaktır. Ancak, OLS ile sınırlı değilim ve aslında diğer glm veya doğrusal olmayan metodolojilerin faydalarını anlamak istiyorum.

Artıkların varsayımının OLS normalliğini ihlal eden verileri modellemenin en etkili yolu nedir? Veya en azından sağlam bir regresyon analizi metodolojisi geliştirmek için ilk adım ne olmalı?


5
Normallik'in aslında birçok amaç için ne kadar alakasız olduğunu tartışan birkaç konu var . Bağımsız gözlemleriniz ve en azından orta örneklem büyüklüğünüz varsa, OLS çıkarımı için önemli olan tek şey, tüm artıkların aynı varyansa sahip olmasıdır. Normal değil Sağlam / heteroskedasticity-tutarlı / sandwich / Huber-Eicker-White standart hata tahminleri kullanırsanız, sürekli değişkenlik gereksinimi bile gerekmez.
misafir

@guest Ben sadece bu konudaki normallik testi etkinliği hakkında okuyorum. Regresyon analizi bile etiketlenmedi.
Robert Kubrick

Deneyin bu bir . İşte harici bir link . Ve örneğin, Stok ve Watson, Ekonometriye Giriş gibi OLS bölümlerini görün . Yemin ederim ki ben bunları telafi etmiyorum!
misafir

@guest İki bağlantı, artıkların değil normal sonuç dağılımı ile ilgilidir.
Robert Kubrick

1
Hayır yapmazlar. Yazarlar genellikle "X'in şartlı Y dağılımı" için "Y'nin dağılımı" nu kısaca ifade eder. Asıl sorunuza geri dönmek için; Küçük bir numune veya yoğun kuyruklu veriye sahip değilseniz, standart hatalarla OLS kullanımı iyi bir ilk adımdır. Bu durumlarda Normallik sadece bir mesele değildir.
konuk

Yanıtlar:


53

Olağan en küçük kareler tahmini, normal olmayan hatalar karşısında hala makul bir tahmincidir. Özellikle, Gauss-Markov Teoremi , sıradan en küçük kareler kestiriminin, hatalar devam ettiği sürece , regresyon katsayılarının en iyi doğrusal yansız kestiricisi (BLUE) olduğunu ( hataların ortalama karesel hatayı en aza indirgemesi açısından optimal olan 'En İyi' anlamına geldiğini ) belirtir.

(1) ortalama sıfır var

(2) ilgisiz

(3) sabit varyansa sahip

Burada bir normallik koşulu bulunmadığına dikkat edin (veya hataların IID olduğu herhangi bir koşul ).

Normallik koşulu, güven aralıklarını ve / veya değerlerini almaya çalışırken ortaya çıkar . (Biz ele alındığı gibi, örneğin, - @MichaelChernick uzun normaliteden dönüş yöntemi ile ele OLARAK hatalar olmayan normal olduğunda sağlam çıkarsama kullanabilir (btw +1) bahseder gibi , bu iplik) Huber -Hayırcı, gerçek hata dağılımı normal ve uzun kuyruklu dağılım (örneğin örneğinize benzeyen) arasındaki karışım olduğunda güçlü çıkarım sağlayabilir, ancak normalden diğer ayrılmalar için yardımcı olmayabilir. Michael'ın öne sürdüğü ilginç bir olasılık , OLS tahminleri için güven aralıkları elde etmek için önyükleme yapmak ve bunun Huber-tabanlı çıkarım ile nasıl karşılaştığını görmek.MpM

Düzenleme: Sık sık normal olmayan hataların üstesinden gelmek için Merkezi Sınır Teoremine güvenebileceğinizi söylediğini duydum - bu her zaman doğru değildir (sadece teoremin başarısız olduğu karşı örneklerden bahsetmiyorum). OP'nin ifade ettiği gerçek veri örneğinde , büyük bir örneklem büyüklüğümüz var ancak uzun kuyruklu bir hata dağılımının kanıtlarını görebiliyoruz - uzun kuyruklu hataların olduğu durumlarda, mutlaka Merkez Sınır Teoremine güvenmek için güvenemezsiniz. gerçekçi sonlu örneklem büyüklükleri için yaklaşık olarak tarafsız çıkarım. Örneğin, eğer hatalar serbestlik derecesine sahip bir dağılımını izlerse (ki bu net bir şekilde daha fazla değildir)2.01t2.01 OP verilerinde görülen hatalardan daha uzun kuyruklu), katsayı tahminleri normalde asimptotik olarak dağıtılır, ancak diğer kısa kuyruklu dağıtımlarda "tekmelemek" çok daha uzun sürer.

Aşağıda, bir ham simülasyon ile ortaya Rolduğu zaman , burada , örnek dağılımı , örneklem büyüklüğü olduğunda bile hala oldukça uzun kuyruklu :ε i ~ t 2.01 β 1 N = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

görüntü tanımını buraya girin


2
df=2.01

2
df=2.01tdf2

1
t2.01

2
p

2
@guest, hiçbir zaman OLS'ye karşı tartışmamıştım. Aslında, cevabımın büyük bir kısmının, herhangi bir dağıtım varsayımından bağımsız olarak, OLS'in makul bir şey olduğunu düşünüyorum. Ayrıca, katı normalliklerin çıkarsamaya uyması gerektiğini asla tartışmamıştım - söylediğim şey, uzun kuyruklu hatalarınız olduğunda, normal yaklaşıma dayanan çıkarımın yanıltıcı olabileceğidir (bunun nasıl / bu konuda hemfikir olmadığından emin değilim) tüm söylediklerinizle) ve birinin alternatif düşünmeniz tavsiye edilir (ör. bootstrap). .
Makro

10

Artıkların tüm özelliklerine bakmak istediğinizi düşünüyorum.

  1. normallik
  2. sabit varyans
  3. bir ortak değişkenle ilişkilendirildi.
  4. yukarıdakilerin kombinasyonları

Sadece 1 ise ve bir ağır kuyruğun neden olduğu ağır kuyruğa veya eğriltmeye bağlıysa, sağlam regresyon iyi bir yaklaşım veya normalliğe dönüşüm olabilir. Sabit olmayan bir varyans ise, bir varyans dengeleyici dönüşümü deneyin veya varyans fonksiyonunu modellemeye çalışın. Eğer sadece 3 ise, bu değişkenleri içeren farklı bir model önerir. Vektörleri veya reiduals önyükleme sorunu ne olursa olsun, her zaman bir seçenektir.


1 için, ağır kuyruklu artıklar için normale dönüşüm hakkında biraz bilgi verebilir misiniz?
Robert Kubrick

2
log dönüşümü veya küçük lambda ile Box-Cox kuyrukları daraltır. Bazı ağır kuyruklu ve eğri dağılım için işe yarayabilir. Çok ağır kuyruklu dağıtımlarda herhangi bir dönüşümün işe yarayıp yaramayacağını bilmiyorum.
Michael Chernick

3
Güzel cevaplar Michael. Regresyon tahminlerini ve genel kontrastları içeren güven aralıkları için önyüklemeyi daha rutin olarak kullanmaya başladım ve bunu R rmspaketimde daha kolay hale getirdim . Ancak önerdiğiniz gibi, varyans kararlılığını artıran ve bazen artıkların normalliğini geliştiren bir dönüşüm bulmak, ilk başta bile olsa, birçok avantaja sahiptir. En küçük kareler tahminleri "yanlış" dönüşümü kullanarak çok yetersiz olabilir ve tahminlerde büyük ortalama mutlak ve medyan mutlak hatalara yol açabilir. Ayrıca yarı parametrik regresyon modellerini kullanmayı seviyorum.
Frank Harrell,

2

Tecrübelerim Michael Chernick ile tamamen uyumlu. Yalnızca veri dönüşümü uygulamak zaman zaman modelleme hatasını normal olarak dağıtmaz, aynı zamanda heteroskedasticity özelliğini de düzeltebilir.

Özür dilerim ama başka türlü delice veri toplamak ya da daha az etkili sağlam regresyon yöntemleri kullanmak gibi önermek, bence bu bilimi / sanatı pratik yapmaktan kaynaklanıyor.


1

Makro (yukarıdaki jsut) doğru cevabı belirtti. Sadece biraz hassas, çünkü aynı sorum vardı.

Artıkların normal olma koşulu, artıkların homoskedastik olduğu durumlarda yararlıdır. Sonuç olarak, OLS tüm tahmin edicinin (doğrusal VE doğrusal olmayan) arasındaki en küçük varyansa sahip olmasıdır .

Genişletilmiş OLS varsayımları:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. Büyük aykırılıklar nadirdir
  4. sen homoskedastic
  5. N(0,σ2)

1-5 doğrulanırsa, OLS tüm tahmin edicinin arasındaki en küçük varyansa sahiptir (doğrusal VE doğrusal olmayan) .

sadece 1-4 doğrulanırsa Gauss-Markov tarafından OLS en iyi doğrusal (sadece!) tahmin edicidir (MAVİ).

Kaynak: Stock and Watson, Ekonometri + kursum (EPFL, Ekonometri)


Artıklar için normal en küçük kareler için normallik şartı yoktur, ancak normallik, örneğin maksimum olasılık analizi için istenen bazı özellikleri sağlar. İkincisi, Akaike bilgi kriteri için sıklıkla kullanılır. Bununla birlikte, bu gereksiz yere kısıtlayıcıdır, nadiren karşılaşılır ve daha resmi gereklilik, aksi durumda y'de sıradan en küçük kareler için çok az kullanımın olması nedeniyle şanslı olan eşdeğerlik için normal şart değil.
Carl

@Carl: kesinlikle konuşursak, OLS için herhangi bir gereksinim yoktur, 1 veya 2 bile (Excel'den bir regresyon çalıştırmasını isteyin ve hiçbir soru sormaz): normallik, çıkarımı mantıklı kılan özelliklerden biridir, örneğin, tahmin, güven aralıklar, testler.
PatrickT

y

Aynı şeyi söylüyor olmalıyız. Belki de ilk yorumunuzun ifadesi beni şaşırttı.
PatrickT

1

Normal olmayan koşullar için, bazen , özellikle yöntemlere olan bağlantıları kullanarak, güçlü bir gerileme olabilir .

Normallik bağlamını sunmak için , aşağıdakiler gibi doğrusal OLS regresyon varsayımlarını gözden geçirmeye yardımcı olabilir :

  • Zayıf dışa dönüklük . Bu, esasen, yordayıcı değişkenlerin ( x) , rastgele değişkenlerden ziyade sabit değerler olarak ele alınabileceği anlamına gelir . Bu, örneğin, tahmin değişkenlerinin hatasız olduğu varsayıldığı anlamına gelir; yani ölçüm hatalarıyla kirlenmemişler. Bu varsayım, en sık ihlal edilen ve bu varsayım listesinin ardından numaralandırıldığı gibi hatalara yol açan varsayımdır.
  • Doğrusallık. Bu, tepki değişkeninin ortalamasının, parametrelerin (regresyon katsayıları) ve tahmin değişkenlerinin doğrusal bir birleşimi olduğu anlamına gelir. Bu varsayımın ilk bakışta göründüğünden çok daha az kısıtlayıcı olduğuna dikkat edin. Tahmini değişkenler sabit değerler olarak kabul edildiğinden (yukarıya bakın), doğrusallık gerçekten sadece parametreler üzerindeki bir kısıtlamadır. Öngörücü değişkenlerin kendileri keyfi bir şekilde dönüştürülebilir ve aslında aynı temel yordam değişkeninin birden fazla kopyası eklenebilir, her biri ayrı ayrı dönüştürülebilir.
  • Sabit varyans (aka eşcinsellik). Bu, yanıt değişkeninin farklı değerlerinin, tahmin değişkenlerinin değerlerinden bağımsız olarak hatalarında aynı varyansa sahip olduğu anlamına gelir. Uygulamada, eğer cevap değişkeni geniş bir ölçekte değişebiliyorsa, bu varsayım geçersizdir (yani hatalar heterossedastiktir). Heterojen hata varyansını kontrol etmek için veya bir kalıntı kalıntısı modelinin homoscedastisite varsayımlarını ihlal ettiği durumlarda (hata, x'in tüm noktaları için 'en uygun çizgi' etrafında eşit olarak değişkendir)), artık hata ve öngörülen değerler arasında “fan etkisi” aramak gerekir. Bu, öngörücü değişkenlere karşı çizildiğinde mutlak veya kare artıklarda sistematik bir değişiklik olacağını söylemektedir. Hatalar regresyon çizgisine eşit olarak dağıtılmayacaktır. Heterosidalite, çizginin tüm varyanslarını yanlış bir şekilde temsil eden tek bir varyans elde etmek için noktalar etrafındaki ayırt edilebilir varyansların ortalamasının ortalaması ile sonuçlanacaktır. Aslında, artıklar kümelenmiş ve lineer regresyon çizgisi boyunca yer alan noktalar için daha büyük ve daha küçük değerler için tahmin edilen arazilerinde dağılmış görünmektedir ve model için ortalama kare hatası yanlış olacaktır.
  • Hataların bağımsızlığı. Bu, cevap değişkenlerinin hatalarının birbirleriyle ilişkisiz olduğunu varsayar. (Gerçek istatistiksel bağımsızlık, sadece korelasyon eksikliğinden daha güçlü bir durumdur ve tutulması biliniyorsa istismar edilebilse de çoğu zaman gerekli değildir. Bu sonuncusu, küme analizi ve etkileşim düzeltmesi ile incelenebilir. en küçük kareler) korelasyonlu hataları ele alma kabiliyetine sahip olsa da, tipik olarak ilişkisiz hataları üstlenmeye doğru modelleme için bir tür düzenlileştirme kullanılmadığı sürece tipik olarak daha fazla veri gerektirir. Bayesian doğrusal regresyon, bu konuyu ele almanın genel bir yoludur.
  • Hata terimleri ve regresörler arasındaki istatistiksel ilişki, bir tahmin prosedürünün tarafsız ve tutarlı olma gibi istenen örnekleme özelliklerine sahip olup olmadığının belirlenmesinde önemli bir rol oynar.

  • Tahmini değişkenleri veya x tahmin değişkenlerinin olasılık dağılımı β tahminlerinin kesinliği üzerinde büyük bir etkiye sahiptir. Örnekleme ve deney tasarımı, of kesin bir tahmin elde edecek şekilde veri toplama konusunda rehberlik sağlayan istatistiklerin oldukça gelişmiş alt alanlarıdır.

tydfdf=1t(,+)

Üreten hatalar Cauchy dağıtıldığı zaman, OLS artıklarının sahte bir çizgiden veri yoluyla daha az güvenilir olacağı, yani çöplerin çöpe atılacağı anlamına geldiği için artıklara göre Cauchy dağılımını çağırmak keyfidir. Bu durumlarda, Theil-Sen regresyon regresyonu kullanılabilir. Theil-Sen, normal olmayan artıklar için kesinlikle OLS'den daha sağlamdır, örneğin, Cauchy'nin dağılmış hatası, güven aralıklarını bozmaz ve OLS'den farklı olarak iki değişkenli bir regresyondur, ancak iki değişkenli durumda hala önyargılıdır. Bablok regresyon geçişi daha değişkenli tarafsız olabilir, ancak negatif regresyon yamaçları için geçerli değildir. Genellikle yöntem karşılaştırma çalışmaları için kullanılır. Biri Deming regresyonundan bahsetmeliBurada, Theil-Sen ve Passing-Bablok regresyonlarının aksine, iki değişkenli sorunun asıl çözümü, ancak diğer regresyonların sağlamlığından yoksun. Sağlamlık, daha merkezi değerleri içerecek şekilde veriler kesilerek artırılabilir, örneğin, rastgele örnek bir fikir birliği (RANSAC) , matematiksel bir modelin parametrelerini aykırı değerler içeren bir dizi gözlemlenmiş veriden tahmin etmek için yinelemeli bir yöntemdir.

x1xyxyy2xyxy=f(x)

  1. Longford, NT (2001). "Yazışma". Kraliyet İstatistik Kurumu Dergisi, Seri A. 164: 565. doi: 10.1111 / 1467-985x.00219
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.