Artık ve bağımlı değişken arasındaki beklenen korelasyon nedir?


26

Çoklu doğrusal regresyonda, artık ve yordayıcılar arasındaki korelasyonun sıfır olduğunu anlayabiliyorum, ancak artık ve ölçüt değişkeninin beklenen korelasyonu nedir? Sıfır olması mı yoksa yüksek derecede korelasyon olması mı beklenmeli? Bunun anlamı nedir?


4
Bir "kriter değişkeni" nedir?
whuber

2
@whuber Jfly'nin cevabı / sonucu / bağımlı / vb. değişken. davidmlane.com/hyperstat/A101702.html Bu tür değişkenlerin geçtiği birçok ismi görmek ilginç: en.wikipedia.org/wiki/…
Jeromy Anglim

@Jeromy Teşekkürler! Bunun anlam olduğunu tahmin etmiştim ama emin değildim. Bu benim için yeni bir terim - ve açıkça Vikipedi'ye.
whuber

Bunun veya buna benzer bir şey olacağını düşünmüştüm ,E[R2]R2=[corr(y,y^)]2
olasılık 3

f e C o v ( f ( x ) , e ) = 0 C o r r ( y , e ) = S D ( e ) / S D ( y ) = y=f(x)+e , burada , regresyon işlevidir, hatadır ve . Daha sonra . Örnek istatistik budur; Beklenen değeri benzer ama daha karışık olurdu. feCov(f(x),e)=0Corr(y,e)=SD(e)/SD(y)=1R2
Ray Koopman

Yanıtlar:


20

Regresyon modelinde:

yi=xiβ+ui

olağan varsayım şudur: , , iid bir örnektir. ve tam sıralamasına sahip olduğu varsayımlarına göre , en küçük kareler tahmin edicisi:ı = 1 , . . . , N, E x ı u ı = 0 E ( x i x ' i )(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

tutarlıdır ve asimptotik olarak normaldir. Bir artık ile cevap değişkeni arasında beklenen kovaryans, o zaman:

Eyiui=E(xiβ+ui)ui=Eui2

Ayrıca ve , ve regresyon artıkları arasındaki beklenen kovaryansı hesaplayabiliriz :e ( u 2 i | x 1 , . . . , X , n ) = σ 2 y ıE(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

Şimdi korelasyonu elde etmek için ve yi hesaplamamız gerekiyor . Şekline dönüştüVar ( u ı )Var(yi)Var(u^i)

Var(u^i)=E(yiu^i),

bundan dolayı

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

Şimdi geliyor şapka matrisinin köşegeninden , ki burada . matrisi idempotenttir, dolayısıyla aşağıdaki özelliği sağlar H=X( X ' X ) - 1 x ' x=[ x i ,. . . , x N ] Hxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

buradaki , çapraz terimidir . içinde lineer bağımsız değişkenlerin sayısı genellikle değişken sayısıdır. Haydi diyelim . Sayısı örnek boyutu . Bu yüzden, tamamlaması gereken negatif olmayan terimlerimiz var . Genellikle , çok daha büyüktür , bu nedenle, bir çok sıfıra yakın olacaktır, bu, artık ile yanıt değişkeni arasındaki korelasyonun, gözlemlerin daha büyük kısmı için 1'e yakın olacağı anlamına gelir. H sıralaması ( lH ) x ı p s ı ı , N , N p , N p h i ihiiHrank(H)xiphiiNNpNphii

Terimi de etkili gözlemler belirlenmesi için çeşitli teşhis regresyon kullanılır.hii


10
+1 Bu tam olarak doğru analiz. Ama neden işi bitirip soruyu cevaplamıyorsun? OP bu ilişki "yüksek" olup olmadığı ve bunun ne olabileceğini sorar demek .
whuber

Yani, korelasyonun kabaca olduğunu söyleyebilirsiniz1pN
olasılık

1
Korelasyon her gözlem için farklıdır, ancak X'in aykırı hareket etmemesi koşuluyla, evet diyebilirsiniz.
mpiktas

21

Korelasyon bağlıdır . Eğer yüksekse, bağımlı değişkeninizdeki varyasyonun büyük kısmının bağımsız değişkenlerinizdeki varyasyona atfedilebileceği ve hata teriminize DEĞİL olabileceği anlamına gelir.R 2R2R2

Bununla birlikte, eğer düşükse, bağımlı değişkeninizdeki varyasyonun büyük kısmının bağımsız değişkenlerinizdeki varyasyonla ilgisi olmadığı ve bu nedenle hata terimiyle ilgili olması gerektiği anlamına gelir.R2

Aşağıdaki modeli göz önünde bulundurun:

Y XY=Xβ+ε , ki burada ve birbiriyle ilişkili değildir.YX

CLT'nin tutması için yeterli düzenlilik şartlarını varsayarak

0X-Y , Y =X β ε:=Y - Y =Y-0=YεY'ninβ^ ve ilişkisiz olduğundan, yakınlaşacaktır . Bu nedenle her zaman sıfır olacaktır. Bu nedenle, . ve mükemmel bir şekilde ilişkilidir !!!0XYY^=Xβ^ε:=YY^=Y0=YεY

Hepsini sabit tuttuğunuzda, artırmak, bir hata ile bağımlı arasındaki korelasyonu azaltacaktır. Güçlü bir korelasyon mutlaka alarm nedeni değildir. Bu, basitçe temel sürecin gürültülü olduğu anlamına gelebilir. Bununla birlikte, düşük bir (ve dolayısıyla, hata ile bağımlı arasındaki yüksek korelasyon) modelin yanlış tanımlanmasından kaynaklanabilir.R 2R2R2


Bu cevabı, kısmen “ ” kullanarak hem modelde hem de artıklarında görülen hata terimlerini göstermek için kafa karıştırıcı buluyorum . Diğer bir karışıklık noktası, yakınsaklığın uygulanabileceğine dair hiçbir kanıt dizisi olmamasına rağmen "yakınsama" referansıdır. ve ilişkisiz olduğu varsayımı özel görünüyor ve genel durumları göstermiyor. Tüm bunlar, bu cevabın ne söylemeye çalıştığını ya da hangi iddiaların genel olarak doğru olduğunu gizliyor. εYY^XY
whuber

17

Bu konuyu oldukça ilginç buluyorum ve şu anki cevaplar ne yazık ki eksik ya da kısmen yanıltıcı - bu sorunun uygunluğuna ve popülerliğine rağmen.

Klasik en küçük kareler çerçevesinin Tanıma göre olmalıdır arasında bir ilişkiveŷu^ elde artıklar ile ilintisiz yapı başına olduğundan, OLS tahmin Homoskedastisite altındaki özelliği minimize eden değişkenlik, kalıntı hatanın rastgele verilen değerlerin etrafına rastgele yayılmasını sağlar. Bu resmi olarak gösterilebilir:ŷ

= P σ 2 - P σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

Burada ve : olarak tanımlanan İdempotent matrisleridir ve .MPP=X(XX)XM=IP

Bu sonuç kesin dışsallığa ve eşcinselliğe dayanır ve pratikte büyük örneklerde bulunur. Bunların uncorrelatedness için sezgi şudur: edilen değerikoşullu üzerinde çevresinde ortalanır olarak Ancak, sıkı eksojenite ve homoskedasticity varsayımından herhangi bir sapma açıklayıcı değişkenler endojen olmasına neden arasında bir gizli ilişki hızlandıracağıve. ŷXûûŷ

Şimdi artıklar arasındaki korelasyonve "orijinal" bambaşka bir hikaye:ûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

Teoride bazı kontroller ve bu kovaryans matrisinin artık nın kovaryans matrisi ile aynı olduğunu biliyoruz (kanıt ihmal edilmiştir). Sahibiz:u^

Var(û)=σ2M=Cov(y,û|X)

OP'nin istediği şekilde ve arasındaki (skaler) kovaryansı hesaplamak istiyorsak , aşağıdakileri elde ederiz:yu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= kovaryans matrisinin köşegen girişlerini toplayarak ve N'ye bölerek)

Yukarıdaki formül ilginç bir noktaya işaret ediyor. Eğer ilişkiyi (+ sabiti) artıklarında gerilemesiyle test edersek, yukarıdaki ifadeyi böldüğümüzde kolayca elde edilebilecek eğim katsayısı olur. .yu^βu^,y=1Var(û|X)

Öte yandan, korelasyon, ilgili standart sapmalarla standart kovaryanstır. Şimdi, artıklar varyans matrisi varyansı ise, olan . Bu nedenle korelasyonu şu şekilde olur:σ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

Bu, doğrusal bir regresyonda tutması gereken temel sonuçtur. Sezgi, hata teriminin gerçek varyansı ile artıklara dayanan varyans için bir proxy arasındaki hatayı ifade eder. Varyansı olduğuna dikkat edin varyansı eşittir artı artıkların varyans . Bu nedenle, daha sezgisel olarak şu şekilde yeniden yazılabilir:Corr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

Burada işte iki güç var. Regresyon çizgisine çok uyuyorsak, korelasyonun olması nedeniyle düşük olması beklenir . Öte yandan, koşulsuz olduğu ve parametre alanında bir satır olduğu için saygılı bir parça. Koşulsuz ve koşullu varyansların bir oran içinde karşılaştırılması sonuçta uygun bir gösterge olmayabilir. Belki de bu yüzden pratikte nadiren yapılır.Var(û)0Var(y^)

Denemesi soru sonucuna: arasındaki korelasyonu vepozitiftir ve koşulsuz varyans ile temsil artıklar varyansı ve gerçek hata teriminin varyans oranı ile ilgilidir . Bu nedenle, biraz yanıltıcı bir göstergedir.yûy

Bu egzersiz bize işleyişi ve OLS regresyon doğasında teorik varsayımlara bazı sezgi verebilir rağmen, nadiren arasındaki korelasyonu değerlendirmek ve. Gerçek hata teriminin özelliklerini kontrol etmek için kesinlikle daha yerleşik testler vardır. İkincisi, kalıntılar artıklar üzerinde testler hata terimi değildir ve unutmayın gerçek hata terimine özelliklerinin marka tahminleri özenle ele alınması ile sınırlıdır ve bunların geçerlilik ihtiyacı.yûûu

Örneğin, burada önceki bir poster tarafından yapılan bir ifadeye dikkat çekmek istiyorum. Şöyle söylenir,

"Artıklarınız bağımsız değişkenlerinizle ilişkiliyse, modeliniz heteroskedastic ..."

Bunun bu bağlamda tamamen geçerli olmayabileceğini düşünüyorum. İster inanın ister inanmayın, ama EKK kalıntılar inşaat tarafından bağımsız değişkenler ile ilişkisiz olması için yapılan . Bunu görmek için düşünün:ûxk

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

Ancak, açıklayıcı bir değişkenin hata terimiyle ilişkili olduğunu iddia etmiş olabilirsiniz . Uyarı gibi iddiaların tamamı hakkında varsayımlara dayandığını nüfusun biz emin, gerçek bir temel regresyon modeli ile değil ilk elden gözlemlemek. Sonuç olarak, arasındaki korelasyonu kontrol ve doğrusal EKK çerçevesinde anlamsız Bununla birlikte, heteroskedastisite testi yapılırken , burada ikinci koşullu momenti göz önünde bulundururuz; örneğin, üzerindeki kare kalıntıları veya bir fonksiyonunuyûXXFGSL tahmin edicilerinde sıklıkla olduğu gibi. Bu, düz korelasyonu değerlendirmekten farklıdır. Umarım bu, meseleleri daha net hale getirmeye yardımcı olur.


1
Not sahip olduğumuz (en azından yaklaşık olarak her durumda). Bu dir, ki bu daha sonraki paragraflarda bahsettiğiniz hakkında biraz daha sezginizdir. var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2
olasılık

2
Bu cevapla ilgili ilginç bulduğum şey, korelasyonun her zaman pozitif olması.
olasılık

nin matris olduğunu belirtirsiniz , ancak onun tarafından bölünürsünüz. Var(y)
mpiktas

@probabilityislogic: Adımlarınızı takip edip edemediğimden emin değilim. Daha sonra 1+ (1/1-R ^ 2) karesi altında olacak, (2-R ^ 2) / (1-R ^ 2)? Oysa doğru olan, olumlu kalması. Sezgi, bir dağılım grafiğinden bir çizginiz varsa ve bu çizgiyi bu çizgideki hatalardan alırsanız, bu çizginin y değeri arttıkça artıkların değerinin de arttığı açıktır. Bunun nedeni, artıkların inşaat açısından y'ye pozitif olarak bağımlı olmalarıdır.
Majte

@mpiktas: Bu durumda matris sadece bir boyutta olduğunuzu düşündüğümüz için skaler hale gelir.
Majte

6

Adam'ın cevabı yanlış. Verilere mükemmel şekilde uyan bir modelde bile, artıklar ve bağımlı değişken arasında yüksek korelasyon elde edebilirsiniz. Regresyon kitabının sizden bu korelasyonu kontrol etmenizi istemesinin nedeni budur. Draper'ın "Uygulamalı Regresyon Analizi" kitabında cevabı bulabilirsiniz.


3
Doğru olsa bile, bu CV standartlarına göre bir cevaptan daha fazlasıdır, @Jeff. Talebinizi ayrıntılandırır / yedekler misiniz? Sadece bir sayfa numarası ve Draper & Smith baskısı bile yeterli olacaktır.
gung - Reinstate Monica

4

Yani, artıklar sizin açıklanamayan varyansınızdır, modelinizin öngörüleri ile modellediğiniz gerçek sonuç arasındaki farktır. Uygulamada, lineer regresyon ile üretilen birkaç model, lineer regresyon mekanik veya sabit bir işlemi analiz etmek için kullanılmadığı sürece sıfıra yakın olacaktır.

İdeal olarak, modelinizden kalanlar rastgele olmalıdır, yani bağımsız ya da bağımlı değişkenlerinizle (ölçüt değişkenini ne adlandırdığınızla) ilişkilendirilmemelidir. Doğrusal regresyonda, hata teriminiz normal olarak dağıtılır, bu nedenle artıklarınız normal olarak da dağıtılmalıdır. Önemli aykırı değerleriniz varsa veya artıklarınız bağımlı değişkeninizle veya bağımsız değişkenlerinizle ilişkiliyse, modelinizle ilgili bir probleminiz olur.

Kalıntılarınızın önemli aykırı değerlerine ve normal olmayan dağılımına sahipseniz, aykırı değerler ağırlıklarınızı (Betas) çarpık olabilir ve gözlemlerinizin ağırlıklarınız üzerindeki etkisini kontrol etmek için DFBETAS'ın hesaplanmasını öneririm. Kalıntılarınız bağımlı değişkeninizle ilişkiliyse, o zaman hesaba katmadığınız çok büyük miktarda açıklanamayan bir varyans vardır. Bunu, otokorelasyon nedeniyle, aynı şeyin tekrar eden gözlemlerini analiz ediyorsanız da görebilirsiniz. Bu, artıklarınızın zamanınızla ya da endeks değişkeninizle ilişkili olup olmadığını kontrol ederek kontrol edilebilir. Kalıntılarınız bağımsız değişkenlerinizle ilişkiliyse, modeliniz heteroskedastiktir (bkz: http://en.wikipedia.org/wiki/Heteroscedasticity). Giriş değişkenlerinizin normal olarak dağıtılıp dağıtılmadığını kontrol etmeli (daha önce yapmadıysanız) ve vermediyseniz, daha fazlasını elde etmek için verilerinizi ölçeklendirmeyi veya dönüştürmeyi (en yaygın türler log ve karekökü) düşünmelisiniz. normalize.

Her ikisinde, artıklarınız ve bağımsız değişkenleriniz için, bir QQ-Plot almalı ve aynı zamanda değerlerinizin olduğundan emin olmak için bir Kolmogorov-Smirnov testi yapmalısınız (bu özel uygulama bazen Lilliefors testi olarak adlandırılır). normal bir dağılıma uyar.

Çabuk ve bu sorunla başa çıkmada yardımcı olabilecek üç şey, artıklarınızın medyanını inceliyor, mümkün olduğu kadar sıfıra yakın olmalıdır (ortalama, hata teriminin nasıl yapıldığının bir sonucu olarak hemen hemen daima sıfır olacaktır. Doğrusal regresyonda), artıklarınızda otokorelasyon için bir Durbin-Watson testi (özellikle aynı şeylerin birden fazla gözlemine bakarsanız, daha önce de bahsettiğim gibi) ve kısmi bir kalıntı grafiği yapmak heterossedasticity ve outliers aramanıza yardımcı olacaktır.


Çok teşekkür ederim. Açıklaman benim için çok yardımcı oldu.
Jfly

1
+1 Güzel, kapsamlı cevap. 2 noktada nitpick için gidiyorum. "Artıklarınız bağımsız değişkenlerinizle ilişkiliyse, modeliniz heteroskedastiktir" - Kalıntılarınızın varyansı bağımsız bir değişken seviyesine bağlıysa, o zaman heteroscedastisiteye sahip olduğunuzu söyleyebilirim . Ayrıca, "ünlü olarak güvenilmez" olarak nitelendirilen Kolmogorov-Smirnov / Lilliefors testlerini duymuştum ve kesinlikle bunu kesinlikle doğru buldum. QQ arsa veya basit bir histograma dayalı öznel bir tespit yapmak daha iyidir.
rolando2

4
Bu modeldeki diğer cevaplarda da açıklandığı gibi, "modelinizden kalanların ... ... bağımlı değişkeninize" bağlı olmaması gerektiği iddiası genel olarak doğru değildir. Bu gönderiyi düzeltir misiniz?
dediklerinin - Eski Monica

1
(-1) Bu yazının sorulan soru ile yeterince alakalı olmadığını düşünüyorum. Genel tavsiye olarak iyidir, ancak “yanlış soruya doğru cevap” da olabilir.
olasılık
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.