Belirleme Katsayısı (


21

Değişkenler arasındaki varyasyon miktarını tanımlayan kavramını tam olarak kavramak istiyorum . Her ağ açıklaması biraz mekanik ve geniş. Kavramı "almak" istiyorum, sadece sayıları mekanik olarak kullanmakla değil.r2

Örn: Çalışılan saat vs. test puanı

r = .8

r2 = .64

  • Peki, bu ne anlama geliyor?
  • Test puanlarının değişkenliğinin% 64'ü saatlerce açıklanabilir mi?
  • Bunu sadece karıştırarak nasıl bilebiliriz?

Sorunuzun (bunu anlıyor R-kare vs Ar ilgili değil 0.82=0.64 o yorumlanması hakkındadır) r2 . Lütfen başlığı yeniden düzenleyin.
Robin Girard


@ amoeba kabul etti, etiketi çektim.
Brett

Önemini belirlemek için ihtiyacın var n. Ayrıca bkz . Stats.stackexchange.com/a/265924/99274 .
Carl

Yanıtlar:


27

Temel değişim fikri ile başlayın. Başlangıç ​​modeliniz, ortalamanın karelerindeki sapmaların toplamıdır. R ^ 2 değeri, alternatif bir model kullanılarak hesaplanan varyasyonun oranıdır. Örneğin, R-kare size, Y'deki değişimin ne kadarını, kare uzaklıklarını ortalamadan ziyade bir regresyon çizgisinden toplayarak kaçabileceğinizi söyler.

Çizilen basit regresyon problemi hakkında düşünürsek, bunun tamamen açık olduğunu düşünüyorum. Yatay eksen boyunca bir X tahmincisine ve dikey eksen boyunca bir Y cevabına sahip olduğunuz tipik bir saçılma grafiği düşünün.

Ortalama, Y'nin sabit olduğu arsa üzerinde yatay bir çizgidir. Y'deki toplam varyasyon, Y ortalaması ve her bir veri noktası arasındaki kare farkların toplamıdır. Ortalama çizgi ile her bir nokta arasındaki kare kesilerek eklenir.

Modelden regresyon çizgisine sahip olduktan sonra başka bir değişkenlik ölçüsü hesaplayabilirsiniz. Her Y noktası ile regresyon çizgisi arasındaki fark budur. Her biri yerine (Y - ortalama) kare (Y - regresyon çizgisindeki nokta) kare alıyoruz.

Eğer regresyon çizgisi yataydan başka bir şeyse, ortalamanın yerine bu hazır regresyon çizgisini kullandığımız zaman toplam mesafeyi azaltacağız - yani daha az açıklanamayan bir değişim var. Açıklanan ekstra varyasyon ile orijinal varyasyon arasındaki oran sizin R ^ 2’dir. Bu regresyon çizgisine uydurma ile açıklanan cevabınızdaki orijinal değişimin oranıdır.

görüntü tanımını buraya girin

Aşağıda, görselleştirmeye yardımcı olması için, ortalama, regresyon çizgisi ve regresyon çizgisinden her noktaya olan segmentlere sahip bir grafik için bazı R kodları verilmiştir:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

> Açıklanan varyasyon ile orijinal varyasyon arasındaki oran sizin R ^ 2’dir. Eğer orjinal değişim ortalama 100, toplam regresyon varyasyon 20 ise, o zaman oran = 20/100 = .2 diyorsun ki R ^ 2 = .2 b / c Ortalama değişimin% 20'sini (kırmızı) muhasebeleştiriyorsunuz. açıklanan varyasyon için (yeşil) (r = 1 durumunda) Orijinal varyasyon 50, regresyon varyasyonunun toplamı 0 ise, o zaman oran = 0/50 = 0 = ortalamanın varyasyonunun% 0'ı ( kırmızı) açıklanan varyasyon (yeşil) ile hesaplanır, R ^ 2'nin 0 değil 1 olmasını
beklerim.

1
R ^ 2 = 1- (SSR / SST) veya (SST-SSR) / SST. Yani, örneklerinde, R ^ 2 = .80 ve 1.00. Regresyon çizgisi ile her nokta arasındaki fark, uyum tarafından açıklanamayan şeydir. Gerisi açıklanan orandır. Aksi takdirde, bu kesinlikle doğru.
Brett,

Biraz daha net hale getirmek için bu son paragrafı düzenledim. Kavramsal olarak (ve hesaplamalı olarak) ihtiyacınız olan her şey var. Formülü ekleyip SST SSE ve SSR'ye atıfta bulunmak daha açık olabilir, ancak daha sonra kavramsal olarak almaya çalışıyordum
Brett

yani: R ^ 2, ortalamadan (SST) toplam değişimin, beklenen regresyon değeri ile ortalama değer (SSE) arasındaki fark olan orandır. Saatler-puan örneğime göre, regresyon değeri, çalışılan saatlerle korelasyonu temel alan beklenen test puanı olacaktır. Bundan herhangi bir ek değişiklik SSR'ye atfedilir. Belirli bir nokta için, çalışılan değişken / regresyon saatleri, ortalamadan (SST) toplam varyasyonun% x'ini açıkladı. Yüksek bir r-değeri ile "açıklanan", SSR'ye kıyasla SST'nin büyük yüzdesidir. Düşük bir r-değeri ile "açıklanan", SSR'ye kıyasla daha düşük bir SST yüzdesidir.
JackOfTüm

@BrettMagill, resme olan bağlantının koptuğunu düşünüyorum ...
Garrett

6

İkisi arasındaki ilişkinin matematiksel bir gösterimi burada: Pearson korelasyonu ve en küçük kareler regresyon analizi .

Matematikten ayrı olarak sunulabilecek bir geometrik veya başka bir sezgi olup olmadığından emin değilim, ancak birini düşünebilirsem bu cevabı güncelleyeceğim.

Güncelleme: Geometrik Sezgi

xyy

y=x β+ϵ

y1,y2x1,x2

alt metin http://a.imageshack.us/img202/669/linearregression1.png

βx βyβxβ^βyy^=x β^

y=y^+ϵ^

yy^ϵ^β^

βx βϵ^

yyxyy12+y22yy^y^

Pisagor teoremi ile, biz var:

y2=y^2+ϵ^2

xy^2y2cos(θ)=y^y

Bu nedenle gerekli ilişkilere sahibiz:

yx

Umarım yardımcı olur.


Yardım etme girişiminiz için teşekkür ederim, ama ne yazık ki, bu sadece işleri 10 kat daha da kötüleştirdi. Gerçekten r ^ 2'yi açıklamak için trigonometri mi tanıtıyorsunuz? İyi bir öğretmen olmak için fazla akıllısın!
JackOfTüm

Neden korelasyonun ^ 2 = R ^ 2 olduğunu bilmek istediğinizi düşündüm. Her durumda, aynı kavramı anlamanın farklı yolları yardımcı olur ya da en azından benim bakış açım.

3

Regresyon By Göz bazı sezgi geliştirmek için çalışıyorsanız uygulaması kullanımı olabilir.

Veri oluşturmanıza ve daha sonra gerçek değerle karşılaştırabileceğiniz R için bir değer tahmin etmenize olanak sağlar .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.