Hatalar normal olarak dağıtılmadığında, En Küçük Kareler ve Maksimum Olabilirlik regresyon yöntemleri neden eşdeğer değildir?


10

Başlık her şeyi söylüyor. Modelin hataları normal olarak dağıtılırsa, En Küçük Kareler ve Maksimum Olabilirlik oranının regresyon katsayıları için aynı sonucu vereceğini anlıyorum. Ancak, hatalar normal olarak dağıtılmazsa ne olur? Neden iki yöntem artık eşdeğer değil?


Şunu mu demek istediniz: (a) normallik varsayımı karşılanmadığında MLE kullanmak veya (b) Gauss olmayan olasılık fonksiyonunu kullanmak?
Tim

(a) normalite varsayımı karşılanmadığında
Shuklaswag

Varsayım karşılanmadığında bile (yani gözlenen değerler Gauss dağıtılmaz) ... MLE'yi Gauss olasılık olasılığını kullanarak hesaplarsanız, en az kareler optimizasyonu ile aynı işlemi yaparsınız. Optimizasyon yöntemleri matematiksel olarak eşdeğerdir ve normallik varsayımının doğru olup olmadığından bağımsızdır.
Sextus Empiricus

Normal dağılımlarda bile, en küçük kareler sabit varyans uygular.
CodesInChaos

Yanıtlar:


16

Kısa cevap

Çok değişkenli bir Gauss olasılık yoğunluk dağıtımı değişkeni x=(x1,x2,...,xn) , ortalama ile, μ=(μ1,μ2,...,μn) karesi ile ilgilidir ortalama ve değişken arasındaki öklid mesafesi ( |μx|22 ) veya başka bir deyişle karelerin toplamı.


Uzun cevap

Eşit sapmalar olduğunu düşündüğünüz n hatalarınız için birden fazla Gauss dağılımını çarparsanız , toplam kareler elde edersiniz.

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

veya uygun logaritmik formda:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

μ

(μx)exp[(xiμ)2]


Örneğin Poisson dağılımları için durumla karşılaştırın

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

aşağıdakiler en aza indirildiğinde maksimum olan:

μjlog(μj)xij

bu farklı bir canavar.


Ayrıca (tarih)

Normal dağılımın geçmişi (deMoivre'nin bu dağılıma binom dağılımı için bir yaklaşım olarak görmezden gelmesi) aslında MLE'yi en küçük kareler yöntemine (en az kareler yöntemi bir yöntem olmak yerine) karşılık veren dağıtımın keşfi gibidir. Normal dağılımın MLE'sini ifade edebilen, önce en küçük kareler yöntemi, ikincisi Gauss dağılımı geldi)

ex2

Charles Henry Davis'in çevirisinden (Konik bölümlerde güneşe doğru hareket eden göksel cisimlerin hareket teorisi. Gauss'un "Theoria motus" unun eki ile çevrilmesi) ...

Gauss şunları tanımlar:

ΔΔψΔ

(Italizasyon benim tarafımdan yapıldı)

Ve devam ediyor ( bölüm 177 s. 258'de ):

ψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

k<0

ψΔ=hπehhΔΔ


Yazan: StackExchangeStrike


Bu bilgiyi nereden aldığınızı hatırlıyor musunuz? Kaynağı yayınınıza eklemek ister misiniz? (Bunu iyi açıklayan bir ders kitabı bulmakta zorlanıyorum.)
Joooeey

@Joooeey Gauss'un çevirilen alıntıları için kaynak başlığı ve birçok çevrimiçi kaynaktan birine bir bağlantı ekledim. Bu orijinal metin ağırdır, ancak normal dağılımın tarihinin herhangi bir açıklamasında daha hafif anlaşmalar ile karşılaşmalısınız.
Sextus Empiricus

Olasılık fonksiyonları birçok yerde ortaya çıkıyor. Bu 'bilgiye' sahip olduğum kaynakları ararsanız, sanırım Pearson'un çok değişkenli normal dağılımın geometrik olarak tedavi edildiği ki-kare testi hakkındaki 1900 makalesini söyleyebilirim. Fisher ayrıca birkaç kez geometrik temsiller kullandı (örneğin, 20'li yıllarda tahminlerin etkinliği hakkında, ortalama kare hatasını ve ortalama mutlak hatayı karşılaştırdığı ve bir hiperuzaydaki yüzeyler hakkında konuştuğu bir makale var).
Sextus Empiricus

Daha önce bu Fisher makaleye bir başvuru yaptık @Joooeey burada . Ve buradaki cevabım , t-dağılımının bir özelliğini Fisher ile ilgili olarak elde etmek için geometrik bir bakış açısı kullanıyor (Gosset'in t-dağılımını veya belki biraz daha sonraki bir makaleyi kanıtladığı makaleye inanıyorum).
Sextus Empiricus

5

Çünkü MLE normal olarak dağılmış olan artık varsayımından türetilmiştir.

Bunu not et

minβ  Xβy2

Has hiçbir olasılık anlamı : Sadece bulmak kare kaybı fonksiyonunu minimize söyledi. Her şey deterministiktir ve orada rastgele bileşenler yoktur.β

Olasılık ve olasılık kavramının geldiği yerde,

y=Xβ+ϵ

Nerede düşünen rastgele değişken olarak, ve normal olarak dağıtılır.yϵ


@ Mathew Drury neden matris gösterimini değiştirip toplam işareti eklensin?
Haitao Du

Açık olacağını düşündüm, ancak bir ifadenin probalistik bir anlamı olmadığını iddia ediyorsanız, en iyi rastgele değişkenler olarak yorumlanan sembollerle bir ifade kullanamazsınız. En iyimserlik sorunu referans verdiğiniz sabit verilerle ilgili, bunu açıkça yaptım.
Matthew Drury

5

En küçük kareler ve maksimum (gaussian) olabilirlik uyumu her zaman eşdeğerdir. Yani, aynı katsayılar kümesi tarafından en aza indirilirler.

Hatalar üzerindeki varsayımı değiştirmek, olasılık fonksiyonunuzu değiştirir (bir modelin olasılığını en üst düzeye çıkarmak, hata teriminin olasılığını en üst düzeye çıkarmaya eşdeğerdir) ve dolayısıyla işlev artık aynı katsayılar kümesi tarafından en aza indirilmez.

Yani pratikte ikisi aynıdır, ancak teorik olarak, farklı bir olasılığı en üst düzeye çıkardığınızda, En Küçük karelerden farklı bir cevap alacaksınız


"veya her zaman eşdeğer"?
nbro

0

Somut bir örnek: Diyelim ki basit bir hata fonksiyonu p (1) =. 9, p (-9) = .10. İki puan alırsak, LS sadece çizgiyi onlardan geçirir. Öte yandan ML, her iki noktanın da bir birim çok yüksek olduğunu ve böylece çizgiyi birim üzerinde aşağı kaydırılan noktalardan alacağını varsayacaktır.


2
Örneğiniz belirsiz; özellikle, hangi modeli tarif etmeye çalıştığınızı veya ML'nin iddia ettiğiniz sonucu neden ürettiğini görmek zor. Bu cevabı daha ayrıntılı açıklayabilir misiniz?
whuber

Model, y = mx + b + hatasının, hatanın + 90% + 10% -9 olma şansına sahip olmasıdır. Gözlemlenen herhangi bir nokta göz önüne alındığında, gerçek nokta% 90 bir birim altında olma ve% 10 yukarıda dokuz birim olma olasılığı vardır. Bu nedenle ML, gerçek noktanın bir birim aşağıda olduğunu verir. Bunun hakkında ne anlamıyorsun?
Birikim

2
Yorumunuz faydalıdır, ancak cevabınız modeli hala açık veya anlaşılır bir şekilde tanımlamamaktadır. Bu açıklamayı cevabın içine dahil edebilir misiniz? Güzel bir örnek.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.