Doğrusal regresyonda katsayılı standart hatalar nasıl yorumlanır?


26

R'de görüntüleme işlevini kullanırken bir regresyonun katsayılı standart hatalarını nasıl yorumlayacağımı merak ediyorum.

Örneğin aşağıdaki çıktıda:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Daha yüksek bir standart hata daha fazla önem taşıyor mu?

Ayrıca, artık standart sapma için, daha yüksek bir değer daha yüksek yayılma anlamına gelir, ancak R kare çok yakın bir uyum gösterir, bu bir çelişki değil midir?

Yanıtlar:


52

Parametre tahminleri, bir örnek ortalaması veya bir OLS regresyon katsayısı gibi, karşılık gelen popülasyon parametreleri hakkında çıkarımlar yapmak için kullandığımız örnek istatistiklerdir. Nüfus parametreleri bizim gerçekten önem verdiğimiz şeydir, ancak tüm nüfusa erişimimiz olmadığı için (genellikle sonsuz olduğu varsayılmaktadır) bunun yerine bu yaklaşımı kullanmalıyız. Ancak, bu yaklaşımla gelen bazı rahatsız edici gerçekler vardır. Örneğin, başka bir örnek alırsak ve parametreyi tekrar tahmin etmek için istatistiği hesaplarsak, neredeyse kesinlikle farklı olduğunu buluruz. Dahası, hiçbir tahminin bilmek istediğimiz gerçek parametre değeriyle tam olarak eşleşmesi muhtemel değildir. Aslında, bunu tekrar tekrar yaparsak, sonsuza dek örnekleme ve tahmin etmeye devam edersek, Farklı tahmin değerlerinin nispi frekansının olasılık dağılımını takip ettiğini görüyoruz. Merkezi limit teoremi, bu dağılımın normal olabileceğini düşündürmektedir. Bu dağılımdaki belirsizlik miktarını ölçmek için bir yola ihtiyacımız var. Standart hatanın sizin için yaptığı şey budur.

Örneğinizde, popülasyondaki x1 ve y arasındaki doğrusal ilişkinin eğimini bilmek istiyorsunuz, ancak yalnızca numunenize erişiminiz var. Örneğinizde, bu eğim .51'tir, ancak karşılık gelen örnekleme dağılımında ne kadar değişkenlik olduğunu bilmeden , bu sayıdan ne yapılacağını bilmek zordur. Standart hata, bu durumda, 05, bu örnekleme dağılımının standart sapmasıdır. Önemini hesaplamak için, tahmini SE'ye böler ve masadaki bölümü araştırırsınız. Bu nedenle, daha büyük SE'ler daha düşük önem anlamına gelir .

Artık standart sapmanın eğimlerinizin örnekleme dağılımlarıyla hiçbir ilgisi yoktur. Bu sadece modelinize bağlı olarak numunenizin standart sapmasıdır. Hiçbir çelişki yoktur, olamaz. Yüksek R ^ 2 ve sadece 40 veri noktasına sahip daha büyük bir SD'ye sahip olmanıza gelince, aralık sınırlamasının tam tersi olduğunu tahmin ediyorum - x değerleriniz çok geniş yayılmış.


Mükemmel ve çok net bir cevap! Yani temelde ikinci soru için SD yatay dispersiyonu gösterir ve R ^ 2 genel uyumu veya dikey dispersiyonu gösterir?
8'de

7
@Dbr, yardımcı olmaktan memnuniyet duyarız. Genellikle yanıt değişkeninin dikey eksende ve öngörücü değişkenin yatay eksende olduğunu düşünüyoruz. Bu kurulumda her şey dikeydir - regresyon, tahminler ve yanıt değişkeni (SSE) arasındaki dikey mesafeleri en aza indirir. Aynı şekilde, artık SD, öngörülen değerleri hesaba kattıktan sonra dikey dağılımın bir ölçüsüdür. Son olarak, R ^ 2 tahminlerinizin dikey dağılımının ham verilerinizin toplam dikey dağılımına oranıdır.
dediklerinin - Eski Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.