Doğrusal regresyon normal dağılımı nasıl kullanır?


26

Doğrusal regresyonda, tahmin edilen her değerin, olası değerlerin normal bir dağılımından seçildiği varsayılmaktadır. Aşağıya bakınız.

Fakat neden her tahmin edilen değerin normal bir dağılımdan geldiği varsayılmaktadır? Doğrusal regresyon bu varsayımı nasıl kullanır? Mümkün olan değerler normal dağılmazsa ne olur?

görüntü tanımını buraya girin


2
Sadece hatalar normal bir dağılım izler (bu, X'in verilen koşullu olasılığının da normal olduğu anlamına gelir). Bu muhtemelen merkezi limit teoremiyle ilgili nedenlerden dolayı gelenekseldir. Ancak, normal herhangi bir simetrik olasılık dağılımı ile değiştirebilir ve aynı katsayı tahminlerini en küçük kareler üzerinden alabilirsiniz. Yine de farklı olan, artık standart hata, uyum iyiliği ve varsayımları doğrulama şekliniz olacaktır.
Kian

4
Normal varsayımlar temel olarak çıkarımda bulunur - hipotez testleri, CI'ler, PI'ler. Farklı varsayımlar yaparsanız, bunlar en azından küçük örneklerde farklı olacaktır.
Glen_b -Reinstate Monica

7
Bu arada, sıradan doğrusal regresyon için diyagramınız normal eğrileri çapraz olarak değil, dikey olarak çizmelidir.
Glen_b -Reinstate Monica

Yanıtlar:


29

Doğrusal regresyon kendi başına normal (gauss) varsayımına ihtiyaç duymaz, tahmin ediciler böyle bir varsayıma ihtiyaç duymadan hesaplanabilir (doğrusal en küçük kareler ile) ve kusursuz bir anlam ifade eder.

Ancak, istatistikçiler olarak bu yöntemin bazı özelliklerini anlamak istiyoruz, sorulara cevaplar: en küçük kareler tahmin edicileri bir anlamda optimal midir? ya da bazı alternatif tahmincilerle daha iyisini yapabilir miyiz? Ardından, hata terimlerinin normal dağılışı altında, bu tahmin edicilerin, gerçekten de, örneğin, "minimum değişkenlikten bağımsız" veya maksimum olasılık gibi olduklarını gösterebiliriz. Normal bir varsayım olmadan böyle bir şey kanıtlanamaz.

Ayrıca, güven aralıklarını veya hipotez testlerini oluşturmak (ve özelliklerini analiz etmek istiyorsak) normal varsayımı kullanırız. Ancak, bunun yerine önyükleme gibi başka bir yöntemle güven aralıkları oluşturabiliriz. O zaman, normal varsayımı kullanmıyoruz, fakat, ne yazık ki, onsuz, en küçük karelerden başka bazı tahmin ediciler kullanmalıyız, belki bazı sağlam tahminciler?

Uygulamada elbette normal dağılım en uygun kurgudur. Öyleyse, asıl önemli soru, yukarıda belirtilen sonuçları kullanma iddiasında olmamız için normallik ne kadar yakın olmalıyız? Bu çok daha zor bir soru! İyimserlik sonuçları sağlam değildir , bu nedenle normallikten çok küçük bir sapma bile iyiliği bozabilir. Bu, sağlam yöntemler lehine bir argümandır. Bu soruya ilişkin başka bir çözüm için, bkz. Cevabım Neden normal hatalar yerine t hatalarını kullanmalıyız?

İlgili bir başka soru da , regresyon çizgisini tahmin etmek için neden artıkların normalliği “hiç de zar zor”?

 EDIT

Bu cevap, büyük bir yorum tartışmasına neden oldu, bu da benim yeni soruma yol açtı: Doğrusal regresyon: OLS ve MLE kimliği veren normal olmayan herhangi bir dağılım? şimdi nihayet (üç) cevap aldı, normal olmayan dağılımların en küçük kareler tahmin edicilerine neden olduğu örnekler verdi.


En küçük kareler hatası normal bir varsayıma eşdeğerdir.
Neil G,

4
Böyle bir çelişki yok. Örneğin, Gauss-Markov teoremi, lineer en küçük karelerin, herhangi bir dağıtım varsayımına gerek kalmadan (mevcut varyans dışında), tüm lineer tahminciler arasında en uygun (en az değişkenlik anlamında) olduğunu söyler. En küçük kareler olasılıksal modellerden bağımsız olarak tanımlanabilecek sayısal bir işlemdir! Olasılıklı model daha sonra bu prosedürü istatistiksel olarak analiz etmek için kullanılır.
kjetil b halvorsen

2
@NeilG Kesinlikle normal için MLE en küçük karelerdir, fakat bu en küçük kareler anlamına gelmez, normal bir varsayım gerektirir. Öte yandan, normallikten büyük sapmalar, en küçük kareleri (bütün doğrusal tahminciler kötü olduğunda) en kötü kareleri seçebilir.
Glen_b -Reinstate Monica 19:15

1
@NeilG Söylediklerim hiçbir şekilde LS ve normallik denkliği anlamına gelmez, ama açıkça eşdeğer olduğunu söylersiniz, bu yüzden iki ifademizin bile totolojiye yakın olduğunu sanmıyorum.
Glen_b -Reinstate Monica 20:15

1
@Neil İfadenin gerçekte söylediklerimi nasıl ima ettiğini gösterebilir misin? Gerçekten göremiyorum.
Glen_b -Reinstate Monica 21:15

3

Bu tartışma Ya artıklar normal dağılmışsa, ya da y değilse? bu soruyu iyi ele almıştır.

Kısacası, bir regresyon problemi için, cevabın sadece x değerinde şartlandırılmış normal olduğunu varsayıyoruz. Bağımsız veya cevap değişkenlerinin bağımsız olması gerekli değildir.


1
  1. Fakat neden her tahmin edilen değerin normal bir dağılımdan geldiği varsayılmaktadır?

Bunun derin bir nedeni yoktur ve dağıtım varsayımlarını değiştirmekte, GLM'lere geçmekte veya güçlü bir gerilemede özgürsünüz. LM (normal dağılım) popülerdir, çünkü hesaplanması kolaydır, oldukça stabildir ve artıklar pratikte çoğu zaman az çok normaldir.

  1. Doğrusal regresyon bu varsayımı nasıl kullanır?

Herhangi bir gerileme olarak, doğrusal model (= normal hatayla gerileme) verilen dağılım varsayımına yönelik olasılığı optimize eden parametreleri arar. Doğrusal bir model için olabilirlik olasılığını açık bir hesaplama örneği için buraya bakın . Eğer günlük bir doğrusal model olasılığını alırsanız, karelerin toplamıyla orantılı olduğu ortaya çıkar ve bunun optimizasyonu oldukça uygun bir şekilde hesaplanabilir.

  1. Mümkün olan değerler normal dağılmazsa ne olur?

Farklı dağılımlara sahip bir modele uymak istiyorsanız, sonraki ders kitabı adımları, farklı dağılımlar sunan genelleştirilmiş doğrusal modeller (GLM) veya hala normal olan, ancak bağımsızlığı sağlayan genel doğrusal modeller olacaktır. Diğer birçok seçenek mümkündür. Aykırı değerlerin etkisini azaltmak istiyorsanız, örneğin sağlam bir gerileme düşünebilirsiniz.


0

Soruyu tekrar inceledikten sonra, regresyon parametresi hakkında bir tür çıkarım yapmak istemediğiniz sürece normal dağılımı kullanmak için hiçbir neden olmadığını düşünüyorum. Doğrusal regresyon uygulayabilir ve gürültü terim dağılımını görmezden gelebilirsiniz.


2
Bana bir şey ifade etmiyor.
SmallChess

0

(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)βββββ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.