Basit doğrusal regresyonda anahtarlama cevabı ve açıklayıcı değişken etkisi


48

Diyelim arasında bazı "gerçek" bir ilişki vardır demek y ve x öyle ki y=ax+b+ϵ , nerede a ve b sabitlerdir ve ϵ iid Normal gürültüdür. R kodundan rasgele veri ürettiğimde: x <- 1:100; y <- ax + b + rnorm(length(x))ve sonra böyle bir modele uyduğumda y ~ x, a ve için oldukça iyi tahminler aldım b.

(x ~ y)Ancak, değişkenlerin rolünü olduğu gibi değiştirir ve sonucu x'iny bir işlevi olarak yeniden yazarsam , sonuçtaki eğim regresyon tarafından tahmin edilenden her zaman daha dik (daha fazla negatif veya daha fazla pozitif) olur . Tam olarak neden bunun olduğunu ve orada olup bitenler hakkında bana bir sezgiyi verebilecek olsaydı, bunu takdir edeceğini anlamaya çalışıyorum.xy ~ x


1
Bu genel olarak doğru değil. Belki de bunu sadece verilerinde görüyorsun. Bu kodu yapıştırın: y = rnorm (10); x = onur (10); lm (y-x); lm (x-iloksi); R içine birkaç kez ve iki yoldan gideceğini göreceksiniz.
Makro

Bu tarif ettiğimden biraz farklı. Örneğinizde y, x'in hiçbir işlevi değildi, bu yüzden gerçekten herhangi bir "eğim" (benim örneğimde 'a) yok.
Greg Aponte

lm (y ~ x), modeline y=β0+β1x+εen küçük kareler ile uyar (hatalar normal olduğunda ML hesaplamasına eşdeğerdir). Bir eğim var.
Makro

2
Sorunuz soruluyor ve cevaplanıyor ( sırayla ) stats.stackexchange.com/questions/13126 ve stats.stackexchange.com/questions/18434 . Ancak, kimsenin henüz (a) Y - X regresyonu, (b) X - regresyonu Y, (c) X ve korelasyonunun analizi arasındaki ilişkilerin basit, net bir açıklamasına katkıda bulunmadığını düşünüyorum. Y(D) X ve değişkenlerinde hataların regresyonu Yve (e) ye iki değişkenli bir Normal dağılımın uyması (X,Y). Bu, böyle bir fuar için iyi bir yer olurdu :-).
whuber

2
Tabii ki Makro doğrudur: çünkü x ve y, soruda eşdeğer roller oynar, çünkü hangi eğim daha uçtursa bir şans meselesidir. Bununla birlikte, geometri (yanlış) regresyonda x ve y'yi tersine çevirdiğimizde orijinal eğimin karşılığını almamız gerektiğini önermektedir . X ve y'nin lineer olarak bağımlı olduğu durumlar hariç bu asla olmaz. Bu soru nedenini sormak olarak yorumlanabilir.
whuber

Yanıtlar:


23

Verilen veri noktaları ( x i , y i ) , i = 1 , 2 , n , düzlemde düz bir çizgi çizelim y = a x + b . Biz önceden halinde bir x i + b değeri olarak y ı arasında y ı , o zaman hata olduğu ( y ı - y i ) = ( yn(xi,yi),i=1,2,ny=ax+baxi+by^iyi ,karesel hataolduğu ( y ı - bir x i - b ) 2 , vetoplam bir hata karesi Σ n i = 1 ( y ı - bir x i - b ) 2 . Biz sorarız(yiy^i)=(yiaxib)(yiaxib)2 i=1n(yiaxib)2

ve b seçimi S = n i = 1 ( y i - a x i - b ) 2 değerini minimize eder ?abS=i=1n(yiaxib)2

Yana dikey mesafedir ( x i , y i ) düz bir hattan, çizgiden soran şekildedir gelen nokta dikey mesafelerde karelerinin toplamı çizgi mümkün olduğunca küçük. Şimdi S hem de karesel bir fonksiyonu olan a ve b ne zaman ve minimum bir değere ulaştığı bir ve b öyle ki S(yiaxib)(xi,yi)Sabab İkinci denklemdeb=1oluruz

Sa=2i=1n(yiaxib)(xi)=0Sb=2i=1n(yiaxib)(1)=0
burada μy=1
b=1ni=1n(yiaxi)=μyaμx
aritmetik ortalama değerlerdiryI'in vexi', sırasıyla bu. İlk denklemin yerine geçerek,bir=( 1) alıyoruz μy=1ni=1nyi, μx=1ni=1nxiyixi BöyleceS'yien aza indiren çizgi,y=ax+b=μy+((1)olarak ifade edilebilir.
a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2.
S
y=ax+b=μy+((1ni=1nxiyi)μxμy(1ni=1nxi2)μx2)(xμx),
S
Smin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nxi2)μx2.

ve rollerini değiştirirsek, satırını çizin ve simge küçülten ve değerlerini isteyin yani çizginin noktaların yatay mesafelerinin karelerinin toplamını , çizgi mümkün olduğunca küçük, o zamanxyx=a^y+b^a^b^

T=i=1n(xia^yib^)2,

x=a^y+b^=μx+((1ni=1nxiyi)μxμy(1ni=1nyi2)μy2)(yμy)
ve minimum değeri , T
Tmin=[(1ni=1nyi2)μy2][(1ni=1nxi2)μx2][(1ni=1nxiyi)μxμy]2(1ni=1nyi2)μy2.

Her iki çizginin de noktadan geçtiğini ancak eğimlerin genel olarak farklıdır. Aslında, @whuber'ın bir yorumda işaret ettiği gibi, tüm noktalar aynı düz çizgide uzandığında aynıdır. Bunu görmek için, (μx,μy)

a=(1ni=1nxiyi)μxμy(1ni=1nxi2)μx2,  a^1=(1ni=1nyi2)μy2(1ni=1nxiyi)μxμy
(xi,yi)
a^1a=Smin(1ni=1nxiyi)μxμy=0Smin=0yi=axi+b,i=1,2,,n.

Teşekkürler! abs (korelasyon) <1, ters durumda neden eğimin sistematik olarak daha dik olduğunu hesaplar.
Greg Aponte

(+1) ama daha önce söylediklerinizin bir resmini içeren bir cevap ekledim, çünkü geometrik bir zihnim var :)
Elvis

Sınıf cevabı (+1)
Digio

39

Sadece Dilip'in cevabını göstermek için: aşağıdaki resimlerde,

  • siyah noktalar veri noktalarıdır;
  • solda siyah çizgi, y ~ xkırmızı bölümlerin uzunluğundaki kareleri en aza indiren, elde edilen regresyon çizgisidir ;
  • sağda siyah çizgi, x ~ ykırmızı segmentlerin uzunluğundaki kareleri en aza indiren, elde edilen regresyon çizgisidir .

regresyon çizgileri

Düzenle (en az dikdörtgen regresyon)

Bir "yanıt" ve "ortak değişken" seçmenin doğal bir yolu yoksa, iki değişken birbirine bağımlıysa, ve için simetrik bir rol oynamak isteyebilirsiniz ; Bu durumda "en az dikdörtgen regresyon" kullanabilirsiniz.yx

  • geç , her zaman olduğu gibi;Y=aX+b+ϵ
  • göstermektedirler ve tahminleri koşullu için ve şartlı ;y^i=axi+bx^i=1a(yib)YiX=xiXiY=yi
  • simge küçült, bu da i|xix^i||yiy^i|
    y^=sign(cov(x,y))σ^yσ^x(xx¯)+y¯.

Burada aynı veri noktalarına sahip bir örnek verilmiştir, her nokta için iki kırmızı parçanın uzunluğunun ürünü olarak bir "dikdörtgen" hesaplanır ve dikdörtgenlerin toplamı en aza indirilir. Bu regresyonun özellikleri hakkında fazla bir şey bilmiyorum ve google'da pek bir şey bulamıyorum.

en az dikdörtgenler


14
Bazı notlar: ( 1 ) Yanılmıyorsam, "en az dikdörtgen regresyon" un merkezlemeden sonra " matrisindeki ilk ana bileşeni almaktan elde edilen çözüme eşdeğer olduğu anlaşılıyor ve birim varyansa sahip olmak için yeniden ölçeklendirmek ve ardından yerine geçmek. (devam)X=(y,x)
kardinal

14
(devamı) ( 2 ) Bu şekilde bakıldığında, bu "en az dikdörtgen regresyon" un, ortogonal (veya toplam) en küçük kareler formuna eşdeğer olduğunu ve böylece ( 3 ) özel bir Deming regresyon durumunun eşdeğeri olduğunu görmek kolaydır . ortalanmış, ölçeklendirilmiş vektörler . Ortogonal en küçük kareler "en küçük daireler regresyon" olarak kabul edilebilir. δ=1
kardinal

2
@cardinal Çok ilginç yorumlar! (+1) P eksendendeki lmodel2R paketinde örneklenen ana eksenin ( regline çizgi ile tüm noktalar arasındaki dik mesafeleri en aza indirerek, à la PCA) veya azalan ana eksen regresyonunun veya tip II regresyonunun burada ilgili olduğuna inanıyorum. çünkü bu teknikler hangi rolü (yanıt veya tahmin) her değişken oynadığını söylemek zor olduğunda veya ölçüm hatalarını hesaba katmak istediğimizde kullanılır.
chl

1
@chl: (+1) Evet, haklı olduğuna inanıyorum ve toplamda en küçük karelerdeki Wikipedia sayfası, aynı işlem için, aşina olmadığım diğer birçok adı da listeliyor. En azından R. Frisch, tam regresyon sistemleri ile istatistiksel birleşme analizi , çapraz regresyon adı verilen Universitetets Økonomiske Instituut, 1934'e döndüğü görülüyor .
kardinal

3
@cardinal Vikipedi girdisini okurken daha dikkatli olmalıydım ... Gelecekte referans olarak, burada R kullanarak Biyostatistik Tasarım ve Analiz'den , M. Logan tarafından çekilmiş bir resim var (Wiley, 2010; Şekil 8.4, s. 174). Bu da Elvis'in güzel illüstrasyonları gibi farklı yaklaşımları özetliyor.
chl

13

Eğimi neden bir regresyon için daha küçük gördüğünüze dair kısa bir not. Her iki eğim de üç sayıya bağlıdır: ve standart sapmaları ( ve ) ve ve ( ) arasındaki korelasyon . Yanıt olarak ile yapılan regresyon eğimi eğimine ve yanıt olarak olan regresyon eğrisi , ilk eğimin saniyenin karşılıklılığına oranı eşittir .xysxsyxyryrsysxxrsxsyr21

Dolayısıyla, açıklanan varyans oranı arttıkça, her bir durumdan elde edilen eğimler daha da yakınlaşmaktadır. Açıklanan varyans oranının simetrik olduğuna ve basit doğrusal regresyonda kare korelasyona eşit olduğuna dikkat edin.


1

Buna bakmanın basit bir yolu, eğer gerçek model için , iki regresyon yaptığınızdır:y=α+βx+ϵ

  • y=ayx+byxx
  • x=axy+bxyy

Sonra, :byx=cov(x,y)var(x)=cov(x,y)var(y)var(y)var(x)

byx=bxyvar(y)var(x)

Bu yüzden daha dik bir eğim olsun veya olmasın, sadece oranına bağlıdır . Bu oran varsayılan gerçek modele göre eşittir:var(y)var(x)

var(y)var(x)=β2var(x)+var(ϵ)var(x)

Diğer cevaplarla bağlantı

Bu sonucu, , bunun karşılıklı olması gerektiğini söyleyen diğerlerinin cevaplarına bağlayabilirsiniz . Gerçekten, ve ayrıca, (tahmin hatası yok), Dolayısıyla:R2=1R2=1var(ϵ)=0byx=β

R2=1byx=bxyβ2var(x)+0var(x)=bxyβ2

Öyleysebxy=1/β


0

Girdilerinizde de gürültü olduğu zaman ilginçleşir (ki tartışabileceğimiz her zaman, hiçbir komut veya gözlem asla mükemmel değildir).

Basit bir ilişkisine dayanan fenomeni gözlemlemek için hem x hem de y üzerindeki Gauss gürültüsü ile bazı simülasyonlar yaptım . Gözlemleri şu şekilde yaptım (python kodu):x=y

x = np.linspace(0, 1, n)
y = x

x_o = x + np.random.normal(0, 0.2, n)
y_o = y + np.random.normal(0, 0.2, n)

Farklı sonuçlara bakınız (buradaki olasılık ortogonal mesafe regresyonu, yani en az dikdörtgen regresyonudur):

görüntü tanımını buraya girin

Bütün kod orada:

https://gist.github.com/jclevesque/5273ad9077d9ea93994f6d96c20b0ddd


0

Regresyon çizgisi (her zaman) gerçek ilişkiyle aynı değildir

Gibi bazı 'gerçek' nedensel ilişki olabilir

y=a+bx+ϵ

ancak uygun regresyon çizgileri var y ~ xya da x ~ ynedensel ilişki ile aynı anlama gelmiyor (pratikte regresyon çizgisinden birinin ifadesi bile nedensel 'gerçek' ilişki ifadesinin ifadesiyle örtüşebilir)


Eğimler arasında daha kesin bir ilişki

İki anahtarlamalı basit doğrusal regresyon için:

Y=a1+b1XX=a2+b2Y

eğimleri aşağıdaki gibi ilişkilendirebilirsiniz:

b1=ρ21b21b2

Yani eğimler birbirinin tersi değil .


Sezgi

Nedeni bu

  • Regresyon çizgileri ve korelasyonları mutlaka bire bir nedensel ilişkiye karşılık gelmez .
  • Regresyon çizgileri daha doğrudan koşullu bir olasılık veya en iyi tahmin ile ilgilidir.

Koşullu olasılığın ilişkinin gücü ile ilgili olduğunu hayal edebilirsiniz. Regresyon çizgileri bunu yansıtır ve çizgilerin eğimleri, ilişkinin kuvveti küçük olduğunda sığ olabilir veya ilişkinin gücü güçlü olduğunda her ikisi de dik olabilir. Eğimler sadece birbirlerinin tersi değildir.

Örnek

İki değişken ise ve bazı (nedensel) doğrusal ilişki yoluyla birbirleriyle ilişkisini O zaman olacağını tahmin edebilirsiniz değil tamamen bu ilişkiyi tersine iyi olmak verilen değerine göre ifade etmek istemeniz durumunda .XY

Y=a little bit of X+ a lot of error
XY

Onun yerine

X=a lot of Y+ a little of error

ayrıca kullanmak daha iyi olurdu

X=a little bit of Y+ a lot of error

İlgili regresyon çizgileri ile aşağıdaki örnek dağılımlara bakınız. Dağılımlar, ve ile çok değişkenli normaldir.Σ11Σ22=1Σ12=Σ21=ρ

örnek

Koşullu beklenen değerler (doğrusal regresyonda ne elde edersiniz)

E(Y|X)=ρXE(X|Y)=ρY

ve bu durumda, çok değişkenli normal bir dağılım, daha sonra marjinal dağılımlarX,Y

YN(ρX,1ρ2)XN(ρY,1ρ2)

Böylece Y değişkeni, bir parça ve varyans olan bir parça gürültüsü olarak görebilirsiniz . Aynısı, bunun tersi de geçerlidir.ρX1ρ2

Korelasyon katsayısı daha büyük , yakın iki satır olacaktır. Ama korelasyon düşürmek, daha az güçlü bir ilişki, çizgiler daha az olacaktır dik (bunun için doğrudur hem hatlar ve )ρY ~ XX ~ Y


0

Kısa cevap

Basit bir doğrusal regresyonun amacı, ydeğişkenin değerlerini verilen değişkenin en iyi tahminlerini xbulmaktır. Bu, xdeğişkenin en iyi tahminini bulmaya çalışmaktan, değişkenin değerleri verilenden farklı bir amaçtır y.

Basit doğrusal regresyon y ~ xsize yverilen tahmin için 'en iyi' mümkün modeli verir x. Bu nedenle, eğer bir modele x ~ yuyarsanız ve cebirsel olarak tersine çevirirseniz, bu model sadece model için olduğu kadar en iyisini de yapabilir y ~ x. Ancak , “uygun” modele kıyasla verilen x ~ yöngörülerde modelin tersine çevrilmesi genellikle “daha ​​kötü” olacaktır , çünkü “ters model” farklı bir amacı yerine getirmek için yaratılmıştır.yxy ~ xx ~ y

örnekleme

Aşağıdaki veri setine sahip olduğunuzu hayal edin:

görüntü tanımını buraya girin

Bir OLS regresyonu y ~ xyaptığınızda, aşağıdaki model ile karşılaşırsınız.

y = 0.167 + 1.5*x

Bu y, ilgili hataları olan aşağıdaki tahminleri yaparak tahminlerini optimize eder :

görüntü tanımını buraya girin

OLS regresyonunun öngörüleri, en sağdaki sütundaki değerlerin toplamının (yani karelerin toplamı) olabildiğince küçük olması anlamında en uygunudur.

Bir OLS regresyonu x ~ yyaptığınızda, farklı bir model ortaya çıkar:

x = -0.07 + 0.64*y

Bu, x ile ilgili tahminleri, ilişkili hataları olan aşağıdaki tahminleri yaparak optimize eder.

görüntü tanımını buraya girin

Yine, bu en sağdaki sütunun değerlerinin toplamının mümkün olduğu kadar küçük olması (eşit 0.071) anlamında idealdir .

Şimdi, y = 0.167 + 1.5*xcebir kullanarak, size modelini veren ilk modeli ters çevirmeyi denediğinizi hayal edin x = -0.11 + 0.67*x.

Bu size aşağıdaki öngörüleri ve ilgili hataları verecektir:

görüntü tanımını buraya girin

En sağdaki sütundaki değerlerin toplamıdır; 0.074ki bu, y üzerinde x gerileme yaparak elde ettiğiniz modelden karşılık gelen toplamdan daha büyüktür, yani x ~ ymodel. Başka bir deyişle, "ters y ~ xmodel", x'in tahmininde OLS modelinden daha kötü bir iş yapıyor x ~ y.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.