Y ile y üzerindeki x ve x ile y arasındaki doğrusal regresyon arasındaki fark nedir?


97

Pearson (x, y) veya pearson (y, x) hesaplarsanız, x ve y'nin Pearson korelasyon katsayısı aynıdır. Bu, y verilen x değerindeki y doğrusal bir regresyon yapmanın aynı olması gerektiğini gösterir, ancak durumun böyle olduğunu sanmıyorum.

Birisi ilişki simetrik olmadığında ve bunun her zaman en uygun çizgiyi özetlediğini düşündüğümce Pearson korelasyon katsayısı ile nasıl ilgili olduğuna ışık tutabilir mi?


1
Her korelasyon matrisi simetrik olacaktır çünkü . Bunun gerçekten doğru olduğunu görmek için matematiği incelemenizi tavsiye ediyorum. ve arasındaki ilişkinin (veya ilgilenilen değişkenlerin her ne olursa olsun) bir simetrik olmadığını biliyorsanız, diğer analiz yöntemlerine bakmanız yararlı olabilir. cov(x,y)=cov(y,x)xy
Phillip Cloud,

Yanıtlar:


159

Bunun hakkında düşünmenin en iyi yolu , dikey eksende ve yatay eksen tarafından temsil edilen nokta dağılımını hayal etmektir. Bu çerçeve göz önüne alındığında, belirsiz bir şekilde dairesel olabilen veya bir elipsin üzerinde uzayabilen bir nokta bulutu görüyorsunuz. Regresyonda yapmaya çalıştığınız şey, 'en uygun satır' olarak adlandırılabilecek şeyi bulmaktır. Bununla birlikte, bu basit gibi görünse de, 'en iyi' ile ne demek istediğimizi anlamamız gerekir ve bu, bir çizginin iyi olması için ne olacağını, bir çizginin diğerinden daha iyi olmasını vb. Tanımlamamız gerektiğini gösterir. , bir kayıp fonksiyonunu şart koşmalıyızxyx. Bir kayıp işlevi bize bir şeyin ne kadar 'kötü' olduğunu söylemenin bir yolunu sunar ve böylece, bunu en aza indirdiğimizde çizgimizi olabildiğince 'iyi' yaparız veya 'en iyi' çizgiyi buluruz.

Geleneksel olarak, bir regresyon analizi yaptığımızda , kare hatalarının toplamını en aza indirecek şekilde eğim ve kesişim tahminlerini buluruz . Bunlar şu şekilde tanımlanmıştır:

SSE=i=1N(yi(β^0+β^1xi))2

Dağılım grafiğimiz açısından, bu , gözlemlenen veri noktaları ve çizgi arasındaki (karelerin toplamı) dikey mesafeleri en aza indirdiğimiz anlamına gelir .

görüntü tanımını buraya girin

Öte yandan, gerileme mükemmel makul üzerine , ancak bu durumda, biz koyardı böylece dikey eksende ve. İle (olduğu gibi bizim arsa devam ederse gerileme, yatay eksende) üzerine (yukarıdaki denklemde bir uyarlanabilen versiyonunu kullanarak tekrar ve bağlanmış) biz toplamı minimize edilmesi anlamına gelir yatay mesafelery x x x y x yxyxxxyxyGözlenen veri noktaları ve çizgi arasında. Kulağa çok benziyor ama aynı şey değil. (Bunu tanımanın yolu, her iki yolu da yapmak ve daha sonra cebirsel olarak bir parametre tahmin kümesini diğerinin koşullarına dönüştürmektir. İlk modeli, ikinci modelin yeniden düzenlenmiş sürümüyle karşılaştırmak, bunların kolay olduğunu görmek için kolaylaşır. aynı değil.)

görüntü tanımını buraya girin

Her iki yolun da, biri bize çizilen noktalarla birlikte bir grafik kağıdı verirse sezgisel olarak çizeceğimiz çizgiyi üretmeyeceğini unutmayın. Bu durumda, tam merkezden bir çizgi çizeriz, ancak dikey mesafeyi en aza indirirsek , biraz daha yassı olan bir çizgi (yani daha sığ bir eğime sahip) verirken, yatay mesafeyi en aza indiren biraz daha dik bir çizgi verir .

Bir korelasyon simetriktir; olarak ile korelasyon olarak ile . Ancak Pearson moment çarpımı korelasyonu regresyon bağlamında anlaşılabilir. Korelasyon katsayısı, , her iki değişken ilk olarak standartlaştırıldığında , regresyon çizgisinin eğimidir . Yani, önce her gözlemdeki ortalamayı çıkardınız ve sonra farkları standart sapma ile böldünüz. Veri noktalarının bulut hemen kökenli merkezli olacak ve eğim Eğer geriledi olup aynı olacaktır üzerine veya üzeriney y x r y x x yxyyxryxxy (ancak aşağıdaki @DilipSarwate tarafından yapılan yoruma dikkat edin).

görüntü tanımını buraya girin

Şimdi, bu neden önemli? Geleneksel kayıp fonksiyonumuzu kullanarak, hatanın tümünün sadece değişkenlerden birinde olduğunu söylüyoruz (viz., ). Biz de söylüyor, bir hatasız olarak ölçülür ve yaklaşık bakım değerler kümesini oluşturmaktadır, ancak sahiptir Örnekleme hatasınıx yyxy. Bu, konuşmayı söylemekten çok farklı. Bu ilginç bir tarihsel bölümde önemliydi: ABD'deki 70'li yılların sonlarında ve 80'li yılların başlarında, işyerinde kadınlara karşı ayrımcılık yapıldığına dair bir dava yapıldı ve bu durum, kadınların eşit geçmişe sahip olduğunu gösteren regresyon analizleriyle desteklendi (ör. yeterlilikler, tecrübe vb. Eleştirmenler (ya da sadece fazladan ayrıntılı olan insanlar), bu doğruysa, erkeklerle eşit olarak ödenen kadınların daha yüksek nitelikte olması gerektiğine hükmetti, ancak bu kontrol edildiğinde, sonuçların ne zaman “anlamlı” olduğu ortaya çıktı. bir yolu değerlendirdiler, diğerlerini kontrol ettiklerinde 'önemli' olmadılar, bu da herkesi karmakarışık hale getirdi. Buraya bak sorunu gidermeye çalışan ünlü bir bildiri için.


(Daha sonra güncellendi) Konuya görsel olarak değil formüller aracılığıyla yaklaşan bunun hakkında düşünmenin başka bir yolu:

Basit bir regresyon çizgisinin eğim formülü, kabul edilen kayıp fonksiyonunun bir sonucudur. Standart Olağan En Küçük Kareler kaybı işlevini kullanıyorsanız (yukarıda belirtilen), her giriş ders kitabında gördüğünüz eğim formülünü alabilirsiniz. Bu formül çeşitli şekillerde sunulabilir; bunlardan biri eğim için 'sezgisel' formül. Eğer gerileyen olan durum her ikisi için bu formu düşünün üzerinde , ve nereye gerilemesinde olan üzerinde : yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
Şimdi, umarım eşit olmadığı sürece bunların aynı olmayacağı açıktır . Varyanslar ise şunlardır eşit (örneğin, önce değişkenleri standardize çünkü), o zaman standart sapmalar ve böylece varyanslar olur hem de eşit . Bu durumda, , her ikisinin de değişebilirlik ilkesi nedeniyle aynı olan Pearson'un değerine eşit olacaktır : Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
Kayıp fonksiyonunu minimize etmek için +1. Dikey veya yatay mesafelere alternatifler, her biri farklı regresyon çizgileri üreten çizgiye veya dikdörtgenin alanına dik mesafenin kullanılmasını içerir.
Henry,

7
Ben deyimi "eğim sen geriledi olsun aynı olacağını sanmıyorum üzerine veya üzerine ." eğer kural yatay eksende ve dikey eksende çizilirse doğrudur. Bu durumda, eğimli yerleri tanıma değerleri birbirinden. Bağımsız değişkenlerin yatay eksende ve dikey değişkene bağlı değişkenlerin kurallarını izlersek, evet, eğim aynı şekilde olur. Ancak bu sözleşmede yatay mesafelere karşı dikey mesafelerin açıklanması geçerli değildir; o zaman hattan noktalarının dikey mesafe. x x y x yyxxyxy
Dilip Sarwate

4
@DilipSarwate, söylediklerin doğru. "Dikey" ve "yatay" terimleri kullanarak My noktası hatası olarak anlaşılmaktadır görsel olarak belirgin bir fikir yapmaktır örnekleme hatasıy ya da hata örnekleme . Biz çizmek Should dikey eksende ve gerileme üzerine , küçültülmüş mesafeler dikey olacaktır ancak minimize hata hala hatayı örnekleme edilecektir . Cevabım yeterince açık olmayabilir; Daha iyi bir yol düşünebilirsem düzenleyebilirim. x x x y xxxxyx
gung

1
Korelasyon durumunda , noktalar ve çizgi arasındaki ortogonal mesafenin en aza indirildiğini söyleyebilir misiniz ? (Satır noktadan "regresyon" hattına giden ve üzerinde dik duran duran anlamına gelir).
von

1
Pearson'un korelasyonu bir çizgiye tam olarak uymuyor, @ vonjd. İlk önce veriler standardize edildiğinde en küçük kareler çizgisinin eğimine eşdeğer olduğu ortaya çıkmıştır. Birinci ana bileşen, yalnızca 2 değişken olduğunda ve veriler ilk önce standart hale getirildiğinde, ortogonal mesafeleri en aza indiren takılmış bir çizgi türüdür. HTH
gung

12

Cevabı biraz Rkod ve çıktı ile göstereceğim .

İlk önce, yortalama 5 ve 1 SD içeren rastgele normal bir dağılım inşa ediyoruz :

y <- rnorm(1000, mean=5, sd=1)

Daha sonra, bilerek her biri xiçin değerin 5 katı olan ikinci bir rasgele normal dağılım oluşturdum :yy

x <- y*5

Tasarım olarak, xve aşağıdakilerin arasında mükemmel bir korelasyon var y:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

Bununla birlikte, bir regresyon yaptığımızda , regresyon katsayılarının sonuçları ile ilgili olan xve ydolayısıyla bağımlı değişken olarak hangisini kullandığımız ve bağımsız değişken olarak kullandığımıza bağlı olan bir fonksiyon ararız. Bu durumda, bir engellemeye uymuyoruz çünkü rastgele değişmeyen xbir işlevi yaptık y:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

Dolayısıyla gerilemeler bize elbette eşdeğer y=0.2xolduğunu söylüyor x=5y. Korelasyon katsayısı basitçe bize, birim değişim seviyelerinde xve arasındaki y(örneğin) 1 birim artışta yher zaman 0.2 birim artış üreten bir birim değişim seviyelerinde kesin bir eşleşme olduğunu gösteriyor x.


6

Pearson'un korelasyonunun, x'e y'ye veya y'ye x'e karşı bir regresyon yapmamızın aynı olması anlayışı ile aynı lineer regresyona sahip olmamız gereken aynıdır. Bu sadece biraz yanlıştır ve gerçekte ne olduğunu anlamak için bunu kullanabiliriz.

Bu, bir çizginin denklemidir, regresyonumuzdan elde etmeye çalıştığımız şey budur.

görüntü tanımını buraya girin

Bu çizginin eğimi için denklem Pearson'un korelasyonu tarafından yönlendirilir.

görüntü tanımını buraya girin

Bu Pearson'un korelasyonunun denklemidir. Aynı şekilde, x'e y'ye veya y'ye x'e karşı gerileme yapmamız aynıdır.

görüntü tanımını buraya girin

Ancak eğim için ikinci denklemimize baktığımızda, Pearson denkleminin bu denklemdeki tek terim olmadığını görüyoruz. Eğer y'yi x'e karşı hesaplıyorsak, aynı zamanda y'nin örnek standart sapmasının x örnek sapma oranına da sahip olduk. Eğer x'in y'ye karşı regresyonunu hesaplarsak, bu iki terimi tersine çevirmemiz gerekir.


4

Bu gibi sorular üzerine teknik meselelere dikkat çekmek kolaydır, bu yüzden özellikle şunu soran konu başlığına soruna odaklanmak istiyorum: x ile y ve x ile y ile doğrusal regresyon arasındaki fark nedir? ?

wages=b0+b1 years of education+error

years of education=b0+b1 wages+error

Bunun gibi daha fazla örnek düşünebileceğinizden eminim (iktisat dünyasının dışında da), ancak gördüğünüz gibi, modelin yorumlanması, y'den x'e y'den y'ye gerileme yaptığımızda oldukça önemli ölçüde değişebilir.

Öyleyse, şu soruyu cevaplamak için: y ile x ve x ile y ile doğrusal regresyon arasındaki fark nedir? , regresyon denkleminin yorumunun , x yerine y yerine x üzerine gerileme yaptığımızda değiştiğini söyleyebiliriz . Bu noktayı gözden kaçırmamalıyız, çünkü ses yorumlaması olan bir model çabucak çok az anlam ifade eden veya hiç anlam ifade etmeyen bir duruma dönüşebilir.


3

Bu konuyla ilgili çok ilginç bir fenomen var. X ve y değiş tokuşundan sonra, regresyon katsayısı değişse de, ancak t-istatistiği / F-istatistiği ve katsayı için anlamlılık seviyesi değişmez. Bu, bağımsız değişkenlerden biriyle y değiş tokuş yaptığımız çoklu regresyonda bile geçerlidir.

F-istatistik ve (kısmi) korelasyon katsayısı arasındaki hassas bir ilişkiden kaynaklanmaktadır. Bu ilişki gerçekten lineer model teorisinin çekirdeğine değiniyor. Not defterimdeki bu sonuçla ilgili daha fazla ayrıntı var: Neden y ve x değişimi p'yi etkilemiyor?


Aşağıdaki konuyu ilginç / karıştırıcı bulabilirsiniz: Bir grup belirleyicisi içeren bir regresyonda X ve Y'yi değiştirme .
gung

2
"Neden y ve x değişiminin p'yi etkilemiyor" makalesi artık burada değil. Geri ekler misin
JetLag

1

@ Gung'ın mükemmel cevabını genişletmek:

ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

 Doing regression of y given x

minbE(YbX)2

için ise : gibi yazılabilir:doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

İki farklı görünen sorunun da aynı çözüme sahip olabileceğini not etmek önemlidir.


1
Her ne kadar doğru olsa da - ve bu gözlemler için teşekkür ederim - okuyucularınızı asılı tutarsınız: bu iki farklı görünen sorunun çözümlerinin neden farklı olduğunu açıklayabilir misiniz ?
whuber

1
Haklısın. Aslında bunu düşündüm ama neden iki çözümün mutlaka farklı olduğunu açıklamanın basit (ve daha az matematiksel) bir yolunu bulamadım, bu yüzden bu iki soruna olabildiğince benzer şeyler yapmaya çalıştım . Burada sadece farklı bir bakış açısı sağlamaya çalışıyorum. look
SiXUlm

Son satır orta çizgiye nasıl eşittir? 1 / b ^ 2 ile çarpmanız durumunda, E (X - Y / b) ^ 2 değil E (X - Yb) ^ 2
Austin Shin

@ AustinShin aslında burada biraz hile. Orta çizgide alıyorum , sonra değişkeni değiştiriyorum: , bu da bana son satırı veriyor. b : = 1 / bbb:=1/b
SiXUlm

+1: Şimdi açıkça bir noktaya değindin!
whuber

0

Eh, basit bir iki değişkenli regresyon için, doğrusal korelasyon katsayısı ve R-kare her iki denklem için aynı olacağı doğrudur. Ancak eğimler, r = 1 olmadıkça, birbirlerinin karşılığı olmayan r Sy / Sx veya r Sx / Sy olacaktır.


1
"... veya " ... Ya da daha özlü olmak r 2 = 11r2=1
gerekirse

-7

Temel regresyon fikri 'sebep ve sonuç' veya 'bağımsız ve bağımlı' olabilir. X değişkenine bağımsız değişken ve Y eksenine bağımlı değişken yerleştirmenin normal uygulaması, Y = mX + c ile gösterilir. Eğimin m (X üzerinde Y) veya (X üzerinde Y) olarak mı, (X üzerinde Y) veya (X üzerinde Y) olarak mı belirtileceğidir. İyi değil ve netleştirilmesi gereken her iki şekilde de kullanılır. Modelciler, Simüle Serilerinin Gözlenen Seriler ile uyuşup uyuşmadığını değerlendirmek için sıkça Scatter Plots; ve regresyon çizgisinin kullanılması kaçınılmazdır. burada bir nedensel madde yoktur. Bu zorunluluktan yola çıkarak, iş parçacığı tarafından sorulan sessiz sorusu duruyor. Ya da basitçe, lütfen normal regresyon analizinin nasıl çağrılacağını açıklığa kavuşturun: X on Y; veya X üzerindeki Y?, nedensel cevabın ötesine geçerek. Ana konuya bir cevap değil; ama paralel bir soru.


6
-1 Tutarsız olmasının yanı sıra, bu cevap en iyi cevaben açıkça dile getirilen anahtar fikri ihmal eder: Verilerdeki değişkenlik olasılık modeli, regresyonun anlamlı olup olmadığını belirler ve hangi değişkenin bağımlı değişken olarak değerlendirilebileceğini belirler.
whuber

Bu katılımcı, kuşkusuz açıkça belirsiz bir başlık sorusunun geleneksel etiketleme açısından bir yorumunu tekrarlıyor olabilir. Y = mx + b formundaki bir problem için tipik olarak "y, x üzerinde regrese edildi" (evet) veya "x, y üzerinde regrese edilir" (hayır) olarak tanımlanır mı? Terminoloji sorusu istatistik.stackexchange.com/questions/207425/… adresinde cevaplandırılmıştır .
InColorado
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.