Doğrusal regresyonda normallik varsayımı neden


15

Sorum çok basit: neden lineer regresyon varsayımında hata teriminin izlediği dağılım olarak normali seçiyoruz? Neden üniforma, t veya başka bir şey seçmiyoruz?


5
Biz yok seçmek , normal varsayım. Sadece hata normal olduğunda, model katsayılarının tam olarak normal bir dağılımı izlediği ve bunlarla ilgili hipotezleri test etmek için tam bir F testinin kullanılabileceği durum söz konusudur.
AdamO

10
Çünkü matematik, insanların modern bilgisayarlardan önce kullanabileceği kadar kolay çalışır.
Nat

1
@AdamO anlamıyorum; sadece neden seçtiğimizi açıkladınız.
JiK

2
@JiK dağıtımları seçebilseydim, istatistiklere hiç gerek kalmazdı. Bütün dünya olasılık olurdu.
AdamO

1
@AdamO İstatistiksel çıkarım yaparken modeliniz için varsayımlar seçebilirsiniz, bu yüzden bunun istatistik olmadığı anlamına gelmez.
JiK

Yanıtlar:


29

Diğer hata dağılımlarını seçiyoruz. Birçok durumda bunu oldukça kolay bir şekilde yapabilirsiniz; maksimum olabilirlik tahmini kullanıyorsanız, bu kayıp işlevini değiştirir. Bu kesinlikle pratikte yapılır.

Laplace (çift üstel hatalar) en az mutlak sapma regresyonu / L1 regresyonuna karşılık gelir (sitede çok sayıda yayın tartışır). T-hataları olan regresyonlar nadiren kullanılır (bazı durumlarda brüt hatalara karşı daha sağlam oldukları için), dezavantajları olabilir - olasılık (ve dolayısıyla kaybın negatifi) birden fazla moda sahip olabilir.

Düzgün hatalar bir L kaybına karşılık gelir (maksimum sapmayı en aza indirin); böyle bir gerileme bazen Chebyshev yaklaşımı olarak adlandırılır (yine de aynı adı taşıyan başka bir şey olduğundan dikkat edin). Yine, bu bazen yapılır (gerçekten de basit regresyon ve sürekli yayılma ile sınırlı hataları olan ufacık veri setleri için, uyum genellikle elle, doğrudan bir arsa üzerinde bulmak için yeterince kolaydır, ancak pratikte doğrusal programlama yöntemlerini veya diğer algoritmaları kullanabilirsiniz Gerçekten de, L ve L1 regresyon problemleri birbirinin ikilisidir, bu da bazen bazı problemler için uygun kısayollara yol açabilir).

Aslında, el ile verilere takılan "tek biçimli hata" modeline bir örnek:

Elle takılan L-sonsuzluk regresyonu.  Veri şeridinin altındaki iki "en düşük" nokta işaretlenir ve veri şeridinin üzerindeki iki "en yüksek" nokta işaretlenir.

Dört işaretli noktanın etkin küme için tek aday olduğunu belirlemek (verilere doğru bir cetvel kaydırarak) kolaydır; bunlardan üçü aktif seti oluşturacaktır (ve kısa bir kontrol yakında hangi üçünün tüm verileri kapsayan en dar banda götürdüğünü tanımlar). Bu bandın ortasındaki çizgi (kırmızı ile işaretlenmiştir), çizginin maksimum olabilirlik tahminidir.

Diğer birçok model seçeneği mümkündür ve pratikte çok azı kullanılmıştır.

K formunun yoğunluğuna sahip, ek, bağımsız, sabit yayılmış hatalarınız varsa,kexp(c.g(ε))ig(ei)eii

Bununla birlikte, en küçük karelerin popüler bir seçim olmasının çeşitli nedenleri vardır, bunların çoğu normallik varsayımı gerektirmez.


2
Mükemmel cevap. Bu varyasyonların pratikte nasıl kullanıldığına dair daha fazla ayrıntı veren bazı bağlantılar eklemeyi düşünür müsünüz?
rgk

(+1) Harika cevap. -Regression hattını takmak için kullanılan R kodunu paylaşır mısınız? L
COOLSerdash

1
Metinde açıkladığım gibi, anlattığım yaklaşıma çok benzer bir şekilde elle yerleştirdim. Kod kullanılarak yeterince kolayca yapılabilmesine rağmen, MS Paint'te çizimi tam olarak açtım ve aktif kümedeki üç noktayı (ikisi eğimi veren) birleştirdim - ve sonra çizgiyi üçüncü noktaya doğru yarıya taşıdım (piksel cinsinden dikey mesafeyi yarıya indirerek ve çizgiyi o kadar fazla piksel hareket ettirerek) - bunun ne kadar basit olabileceğini göstermektir. Bir çocuğa bunu yapması öğretilebilir.
Glen_b -Monica

@Glen_b Gerçekten, birinci sınıf fizik laboratuvarında tam olarak yapmayı öğrettiğimde gençtim.
Peter Leopold

9

Normal / Gauss varsayımı sıklıkla kullanılır çünkü en hesaplamalı olarak en uygun seçimdir. Regresyon katsayılarının maksimum olabilirlik tahminini hesaplamak, saf lineer cebir kullanılarak çözülebilen kuadratik bir minimizasyon problemidir. Gürültü dağılımının diğer seçenekleri, tipik olarak sayısal olarak çözülmesi gereken daha karmaşık optimizasyon problemleri verir. Özellikle, sorun dışbükey olmayabilir ve ek komplikasyonlar ortaya çıkarabilir.

Normallik genel olarak iyi bir varsayım olmak zorunda değildir. Normal dağılımın çok hafif kuyrukları vardır ve bu, regresyon tahminini aykırı değerlere karşı oldukça hassas hale getirir. Laplace veya Student'ın t dağılımları gibi alternatifler, ölçüm verileri aykırı değerler içeriyorsa genellikle üstündür.

Daha fazla bilgi için Peter Huber'in Sağlam İstatistikler adlı seminal kitabına bakın.


2

Bu hipotezle çalışırken, kare-erros tabanlı regresyon ve maksimum olasılık size aynı çözümü sunar. Ayrıca, katsayı önemi için basit F testleri ve tahminleriniz için güven aralıkları alabilirsiniz.

Sonuç olarak, genellikle normal dağılımı seçmemizin nedeni, genellikle işleri kolaylaştıran özellikleridir. Aynı zamanda çok kısıtlayıcı bir varsayım değildir, çünkü diğer pek çok veri türü "normalde" gibi davranır

Her neyse, bir önceki cevapta belirtildiği gibi, diğer dağılımlar için regresyon modellerini tanımlama olanakları vardır. Normal, en çok tekrarlanan olan


2

Glen_b EKK regresyon (olasılığını maksimize yerine karelerinin toplamını minimize) jeneralize olabilir ve biz bu güzel izah etmiştir yapmak diğer dağılımlar seçin.

Ancak, normal dağılım neden bu kadar sık seçiliyor ?

Nedeni, normal dağılımın birçok yerde doğal olarak gerçekleşmesidir. Doğada çeşitli yerlerde "kendiliğinden" ortaya çıkan altın oranı veya Fibonacci sayılarını sık sık gördüğümüz gibi biraz aynı.

Normal dağılım, sonlu varyansa sahip değişkenlerin toplamı için sınırlayıcı dağılımdır (veya daha az katı kısıtlamalar da mümkündür). Sınırı almadan, sonlu sayıda değişkenin toplamı için de iyi bir yaklaşımdır. Bu nedenle, gözlemlenen birçok hata, gözlemlenmeyen birçok küçük hatanın toplamı olarak oluştuğu için, normal dağılım iyi bir yaklaşımdır.

Ayrıca bkz . Normal dağılımın önemi

Galton fasulye makinelerinin prensibi sezgisel olarak gösterdiği

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png


-1

Neden başka dağıtımları seçmiyoruz?

yiRxiRnxi

y^i=wxi.

Şaşırtıcı kayıp genellikle en mantıklı kayıptır:

L=logP(yixi).

Lineer regresyonu, yukarıdaki denklemde sabit varyanslı normal bir yoğunluk kullanmak olarak düşünebilirsiniz:

L=logP(yixi)(yiy^i)2.

Bu kilo güncellemesine yol açar:

wL=(y^iyi)xi


Genel olarak, başka bir üstel aile dağılımı kullanırsanız, bu modele genelleştirilmiş doğrusal model denir . Farklı dağılım farklı bir yoğunluğa karşılık gelir, ancak tahmin, ağırlık ve hedef değiştirilerek daha kolay resmileştirilebilir.

Ağırlık, matrisine değiştirilir . Tahmin şu şekilde değiştirildi:WRn×k

u^ig(Wxi)

burada adlandırılır bağlantı fonksiyonu ya da gradyan log normalleştirici . Ve hedefi yeterli istatistik adlandırılan bir vektöre .g:RkRkyi ui=T(yi)Rk

Her bağlantı işlevi ve yeterli istatistik, sorunuzun ne olduğu ile ilgili farklı bir dağıtım varsayımına karşılık gelir. Nedenini görmek için, sürekli değerli üstel ailenin yoğunluk işlevine doğal parametrelerle bakalım :η

f(z)=h(z)exp(ηT(z)g(η)).

Doğal parametreler olsun olması ve gözlemlenen hedefe yoğunluğu değerlendirmek . Ardından, kayıp gradyanıηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,


Bildiğim kadarıyla, gradyan log-normalizer herhangi bir monotonik, analitik fonksiyon olabilir ve herhangi bir monotonik, analitik fonksiyon bazı üstel ailenin gradyan log-normalleştiricisidir.


Bu çok kısa ve standartlarımız için çok şifreli, lütfen şaşırtıcı açıklayın .
kjetil b halvorsen

1
"her bağlantı işlevi farklı bir dağıtım varsayımına karşılık gelir" bu çok belirsizdir. Link fonksiyonunun farklı dağılımsal varsayımlara genelleme ile değil, dağılımın ortalamasını tanımlayan (doğrusal) kısmın genelleştirilmesi ile ilgisi yoktur.
Sextus Empiricus

1
fg

1
Tipik olarak belirli bağlantı fonksiyonları, belirli dağıtım varsayımlarında kullanılır. Ancak bu bir zorunluluk değildir . Yani benim dağılım varsayımları vardır Poisson Bu örnekte normal değil (yani kasıtlı). Bazı daha iyi (daha pratik ve iyi bilinen) örnekler, insanların bir probit modeli veya logit modeli ile çalıştığı binom / Bernouilli dağıtılmış değişkenlerdir, bu nedenle farklı bağlantı işlevleri ancak aynı (koşullu) dağılım varsayımıdır.
Sextus Empiricus

1
@Neil G: Tembel olan ben miyim? Kolayca orijinal yazı içine şaşırtıcı dahil olabilirdi , değil mi? Ayrıca, bu tür yorumlar yaparken, site kendim için daha fazladır. Bu sitenin müstakil olması gerekiyor. Burada
cevabımdan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.