Sonuç değişkeninin neden yordayıcı (lar) üzerine “gerilediğini” söylüyoruz?


16

Bu terminoloji için bazı sezgisel açıklamalar var mı? Sonuç üzerinde yordayıcılara değil, neden bu şekilde oluyor?

İdeal olarak, bu terminolojinin neden var olduğunun doğru bir açıklamasının öğrencilerin bunu hatırlamasına yardımcı olacağını ve yanlış bir şekilde söylemelerini durduracağını umuyorum.


1
Öyle mi? Bunu daha önce söylediğimden emin değilim - ve regresyon hakkında çok tartıştım. Bunu söyleyen birini tanıyorsanız, belki de sorabilirsiniz. (Bazen " üzerinde geriledi " dedi - ama üzerine bana biraz garip geliyor)
Glen_b

Teşekkürler - "açık" demek istedim, "üzerine" demek istemedim. Bunu şimdi düzelttim.
kullanici1205901 - Monica'yı

Yanıtlar:


19

"Gerileme" nin etimolojisinin ne olduğunu bilmiyorum ama işte bu ifadeyi söylerken veya duyurken aklımdaki yorum. Hastie ve ark.'nın İstatistiksel Öğrenmenin Unsurları'ndan aşağıdaki rakamı düşünün :

regresyon izdüşümdür

Özünde, lineer regresyon, X üzerine (üzerine) dik açılı izdüşümü anlamına gelir ; burada y , bağımlı değişkenin gözlemlerinin n -boyutlu vektörü ve X , prediktör vektörleri tarafından yayılan altuzaydır.yXynX

Bu doğrusal regresyonun çok faydalı bir yorumudur.

Yana üzerinde yansıtılırken X , yani bunu duymak ne zaman Bence ne olduğunu y "üzerine geriledi" dır X . Bu açıdan, X'in y üzerinde gerilediğini veya y'nin X ile "karşı" veya "karşı" gerilediğini söylemek daha az mantıklı olacaktır .yXyXXyyX

İdeal olarak, bu terminolojinin neden var olduğunun doğru bir açıklamasının öğrencilerin bunu hatırlamasına yardımcı olacağını ve yanlış bir şekilde söylemelerini durduracağını umuyorum.

Söylediğim gibi, bunun neden bu terminolojinin var olduğunu (belki de sadece neden devam ettiğini?) Açıkladığından şüpheliyim, ama eminim öğrencilerin hatırlamasına yardımcı olabilir.


2
+1. Öğrencilere bağlıdır! Bu, orta ve ileri seviyelerde konuşmanın ve düşünmenin geçerli ve verimli bir yoludur. Bunun "on" terminolojisinden sorumlu olup olmadığını merak ediyorum. O kadar uzun bir süre önce, neredeyse tamamen şemaları olmayan regresyon metinlerini bulabildiğiniz gibi, şimdi tamamen standart olmasına rağmen, güçlü bir görsel veya geometrik yaklaşım olsa da, bu terminolojinin onlarca yıl geriye gittiğini düşünüyorum.
Nick Cox

(+1) Kafatasımdan regresyon kavramını elde etmenin tek yolu, bunu model matrisinin sütun boşluğu C ( A ) üzerine izdüşümü olarak düşünmektir, bence bu gösterdiğiniz geometrik yorumdur. . yC(A)
Antoni Parellada

1
Bu, terminolojiyi kullanmak için çok iyi bir istatistiksel nedendir. Popüler olmasının sosyal veya dilsel nedenleri farklı olabilir!
Nick Cox

Açık olmak gerekirse: @NickCox'un buradaki yorumlarda söylediklerine tamamen katılıyorum.
amip diyor ki Reinstate Monica

6

Sık sık bu tarz konuşma yöntemlerini kullandım ve duydum. Tahmincilerden önce sonucu veya yanıtı ifade eden dizinin yazılı olarak, kelimeler kullanarak veya notasyon kullanarak veya ikisini karıştırarak konvansiyonlardan takip ettiğini tahmin ediyorum.

Y=Xβ

farklı değişkenler dediğimiz şeyin aynı derecede ilginç (ya da ilgisiz!) sorusunu bir kenara bırakmak.

Ancak, birçok matematikçinin önce argümanlarla eşlemeler veya işlevler yazması gibi, ilk önce yordayıcılardan bahsetmek de matematiksel ve istatistiksel olarak aynı derecede geçerli görünüyor.

İstatistiksel tartışmalarda kullandığımız diziyi sıklıkla yönlendiren şey, bilimsel veya pratik olarak genellikle neyi tahmin etmeye çalıştığımız hakkında net bir fikrimiz olmasıdır - bu ölüm veya gelir veya buğday verimi veya bir seçimde oylar veya her neyse - potansiyel veya gerçek öngörücüler havuzu o kadar açık olmayabilir. Açık olsa bile, önce önemli şeylerden bahsetmek mantıklıdır. Ne yapmaya çalışıyorsun? Her neyse tahmin edin . Nasıl yapacaksın? Bu değişkenlerin bir kısmını veya tamamını kullan .

Benim için uygun başka bir kelime yerine "on" için bir hikayem yok. "Karşı-gerileme" ya da "karşı-gerileme" duymuyorum. Burada mantık olmayabilir, sadece ders kitaplarında, öğretimde ve tartışmalarda iletilen memler.

yx


+1. Ama "gerileme" hakkındaki kişisel yorumum "yansıma" ile yapılır, cevabımı görün. Acaba birçok insan bu ifadeyi bu şekilde mi düşünüyor, yoksa sadece ben mi?
amip diyor Reinstate Monica

3

1) Regresyon terimi , olağan basit doğrusal regresyon modelinde:

y=α+βx+ϵ

yxy^y¯xx¯

|y^y¯|/sy<|xx¯|/sx

For example if we use the BOD data frame built into R then:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

For a a proof see: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) The term on comes from the fact that the fitted values are the projection of the outcome variable onto the subspace spanned by the predictor variables (including the intercept) as further explained in many sources such as http://people.eecs.ku.edu/~jhuan/EECS940_S12/slides/linearRegression.pdf .

Note

Regarding the comment below, what the commenter is stating is what the answer already states above in formula form except that the answer states it correctly. In fact, due to the equality:

(y^y¯)=β^(xx¯)

the dependent variable is not necessarly on average closer to its mean than the predictor is to its mean unless |β|<1 . What is true is that the dependent variable is on average fewer standard deviations from its mean than the predictor is to its as stated in the formula in the answer.

Using Galton's data to which the comment refers (which is available in the UsingR package in R) I ran the regression and in fact the slope is 0.646 so the average child was closer to its mean than its parent was to its but that is not the general case. The current usage of regression to the mean is based on the correct general relationship which we showed in the answer. In the example shown in the R code in the answer above beta>1 so it is not true that the demand is necessarily closer to the mean demand than the Time is to the mean Time and we can readily check numerically in this example that it is not always closer. It is only true if we measure closeness in standard deviations as the inequality in the answer shows.


1
I'm pretty sure that's not where the term regression comes from. In an early use of the term son's height was regressed on father's height; due to mean reversion findings showed sons of tall fathers tended to regress to the mean.
PaulB

While that was true for that particular dataset that is not in general true unless you measure closeness in terms of standard deviations but that is precisely what the inequality in the answer does so perhaps you just did not recognize it. In fact the modern notion is based on the correct formulation which I have stated and not on the incorrect formulation not involving standard deviation. I have expanded on this in the Note which I have added to the end of the answer.
G. Grothendieck

0

Personally, when it comes to explaining terminology, I find the definition of the term itself always helps, especially when explaining to students. The actual definition of the word regress is:

"return to a former or less developed state".

So one way to explain I guess would be the following:

"Thinking of the outcome as the fully developed state, we try to explain the outcome by using less developed states, i.e. the independent variables. Thus the outcome is regressed on the predictors."

Hope that helps.


1
There is more than one "actual definition". I would suggest that in statistical science the technical definition of regression as fitting a model (by default a linear model) is now primary and the historic sense.as captured by "regress to the mean", which remains interesting and some times useful, is secondary. I don't find it helpful to think that predictors in general are "less developed states", e.g. there is no sense in which predictor rainfall is a less developed state of outcome wheat yield. Either way, I don't see how this explains the expression.
Nick Cox

I see your point completely. Is there a way you could explain regression through the definition I posted? Because the way I would think of "less developed" isn't in the sense of rainfall being less developed than wheat yield, but more as the a something that can partly explain wheat yield.
EhsanF

1
If "less developed" doesn't mean less developed, I can't see that the wording helps at all.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.