Doğrusal regresyon F istatistiği, R kare ve artık standart hata bize ne anlatıyor?


14

Aşağıdaki terimlerin doğrusal regresyon bağlamında anlam farkı konusunda gerçekten kafam karıştı:

  • F istatistiği
  • R kare
  • Artık standart hata

Doğrusal regresyonda yer alan farklı terimler hakkında bana büyük bir fikir veren bu webstie'yi buldum , ancak yukarıda belirtilen terimler oldukça fazla görünüyor (anladığım kadarıyla). Okuduğumu ve neyin kafasını karıştırdığımı göstereceğim:

Kalan Standart Hata doğrusal bir regresyon uyumunun kalitesinin ölçüsüdür. Kalan Standart Hata, cevabın (dist) gerçek regresyon çizgisinden sapacağı ortalama miktardır.

1. Bu aslında gözlemlenen değerlerin lm çizgisinden ortalama uzaklığıdır?

R-kare istatistiği, modelin gerçek verilere ne kadar iyi uyduğuna dair bir ölçüm sağlar.

2. Şimdi kafam karışıyor çünkü eğer RSE bize gözlemlenen noktalarımızın regresyon çizgisinden ne kadar saptığını söylerse, düşük bir RSE bize "modeliniz gözlemlenen veri noktalarına göre iyi uyuyor" -> yani ne kadar iyi modelleri uyuyor, bu yüzden R kare ve RSE arasındaki fark nedir?

F-istatistiği, öngörücümüz ile yanıt değişkenleri arasında bir ilişki olup olmadığının iyi bir göstergesidir.

3. RSE'mizin yüksek ve R karenin düşük olması için LİNEER OLMAYAN güçlü bir ilişkiyi gösteren bir F değerine sahip olabileceğimiz doğru mu?


Q 3 Değer, doğrusal olmayan ilişkiyi göstermez. İki değişken arasında bağımlı ve bağımsız bir (sürekli) ilişkinin olup olmadığını gösteren bir orandır.
Subhash C.Davar

Bize ilişkinin doğasını söylemez - doğrusal olmayan veya doğrusal.
Subhash C.Davar

Yanıtlar:


12

Bu terimleri anlamanın en iyi yolu elle regresyon hesaplaması yapmaktır. Ben birbiriyle yakından ilişkili iki cevap yazdım ( burada ve burada ), ancak özel durumunuzu anlamanıza yardımcı olmayabilirler. Ama yine de onları okuyun. Belki de bu terimleri daha iyi kavramsallaştırmanıza yardımcı olurlar.

Bir regresyonda (veya ANOVA), ilgilenilen bir popülasyondan sonuçları tahmin etmemizi sağlayan örnek bir veri kümesine dayanan bir model oluşturuyoruz. Bunu yapmak için, aşağıdaki üç bileşen diğer bileşenlerin hesaplanabileceği basit bir doğrusal regresyonda hesaplanır, örneğin ortalama kareler, F değeri, (ayrıca ayarlanan ) ve artık standart hata ( ):R2R2RSE

  1. toplam kare toplamı ( )SStotal
  2. kalan kareler toplamı ( )SSresidual
  3. model kareler toplamı ( )SSmodel

Her biri, modelin verileri ne kadar iyi tanımladığını ve veri noktalarından yerleştirilmiş modele (aşağıdaki çizimde kırmızı çizgiler olarak gösterilmiştir) kare mesafelerin toplamı olduğunu değerlendiriyor.

ne kadar iyi ortalama uyuyor veri değerlendirmek. Neden ortalama? Ortalama, sığabileceğimiz en basit model olduğundan ve en küçük kareler regresyon çizgisinin karşılaştırıldığı model olarak hizmet eder. Veri kümesini kullanan bu çizim şunları göstermektedir:SStotalcars

resim açıklamasını buraya girin

regresyon çizgisi verilerini ne kadar uygun olduğunu değerlendirmek.SSresidual

resim açıklamasını buraya girin

regresyon çizgisi ortalama kıyasla ne kadar iyi karşılaştırır (yani arasındaki fark ve ).SSmodelSStotalSSresidual

resim açıklamasını buraya girin

Sorularınızı cevaplamak için, önce model ve çıktıdan başlayarak referans olarak anlamak istediğiniz terimleri hesaplayalım:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Karelerin toplamı, bireysel veri noktalarının modele kare uzaklıklarıdır:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Ortalama kareler, serbestlik derecelerine göre ortalaması alınan karelerin toplamıdır:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Sorularınıza cevaplarım:

S1:

  1. Bu aslında gözlemlenen değerlerin lm çizgisinden ortalama uzaklığıdır?

Kalıntı standart hata ( ) kareköküdür kalıntı ortalama kare ( ):RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

Bunu Hatırlarsınız gözlenen veri noktalarının kare mesafeleri ve modeli (yukarıda ikinci parselde regresyon hattı) vardı ve oldu sadece ortalama ilk için, cevap soru, evet: , gözlemlenen verilerin modelden ortalama uzaklığını temsil eder. Sezgisel olarak, bu da mantıklıdır çünkü mesafe daha küçükse, model uyumunuz da daha iyidir.SSresidualMSresidual SSresidualRSE

S2:

  1. Şimdi kafam karışıyor çünkü eğer RSE bize gözlemlediğimiz noktaların regresyon çizgisinden ne kadar saptığını söylerse, düşük bir RSE bize "modeliniz gözlemlenen veri noktalarına dayanarak iyi uyuyor" -> dolayısıyla modellerimizin ne kadar iyi uyduğunu söylüyor , Peki R kare ve RSE arasındaki fark nedir?

Şimdi , ve :R2SSmodelSStotal

# R squared
r.sq <- ss.model/ss.total
r.sq

ne kadar ifade eder , toplam varyasyon veri modeline (regresyon doğrusu) ile izah edilebilir. Verilere en basit modeli, yani ortalamayı taktığımızda toplam varyasyonun verilerdeki varyasyon olduğunu unutmayın. Karşılaştırma ile arsa arsa.R2SStotalSSmodel

Yani ikinci soruyu cevaplamak için, arasındaki fark ve olması size gözlenen verilerin verilen (bu durumda regresyon hattı) modelinin yanlışlığına dair bir şeyler anlatır.RSER2RSE

Öte yandan ortalama yalnız (yani en basit modeli) tarafından açıklanmıştır modeli (yani regresyon hattı) kıyasla varyasyon ile açıklanabilir ne kadar varyasyon anlatır.R2

S3:

  1. RSE'mizin yüksek olması ve R karenin düşük olması için LİNEER OLMAYAN güçlü bir ilişkiyi gösteren bir F değerine sahip olabileceğimiz doğru mu?

Dolayısıyla, diğer değeri, (veya sinyalin) model ortalama karesinin (gürültü) ile bölünmesiyle :FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

Veya başka bir deyişle değeri, modelin yanlışlığı göz önüne alındığında, modelin ne kadarının (ortalamayla karşılaştırıldığında) iyileştiğini ifade eder.F

Üçüncü sorunuzun anlaşılması biraz zor ama teklifinize katılıyorum.


3

(2) Doğru anlıyorsunuz, konsept ile sadece zor zamanlar geçiriyorsunuz.

değer modeli tüm verileri hesaplar kadar iyi temsil etmektedir. Sadece 0 ile 1 arasındaki değerleri alabilir. Modelin açıklayabileceği veri kümesindeki noktaların sapma yüzdesidir.R2

RSE daha çok orijinal verinin modelden sapmasının ne olduğunu açıklamaktadır. Bu nedenle, "model sunulan verileri açıklamada bunu iyi yapıyor" diyor. RSE, "eşlendiğinde verilerin burada olmasını bekledik, ancak gerçekte olduğu yer burası" diyor. Çok benzerler, ancak farklı şekillerde doğrulamak için kullanılırlar.R2


0

Chris'in yukarıda yanıtladığını tamamlamak için:

F istatistiği, model ortalama karesinin ve artık ortalama karenin bölümüdür. Bir regresyon modeli taktıktan sonra Stata gibi yazılımlar da F-istatistiği ile ilişkili p-değerini sağlar. Bu, modelinizin katsayılarının sıfır olduğuna dair sıfır hipotezini test etmenizi sağlar. Bunu "modelin bir bütün olarak istatistiksel önemi" olarak düşünebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.