Lineer regresyondaki standart katsayıları tahmin etmek için kullanılabilir mi?


9

Çeşitli sonuçları tahmin etmek için çoklu regresyon uyguladıkları bir makalenin sonuçlarını yorumlamaya çalışıyorum. Ancak 's ( olarak tanımlanan standartlaştırılmış katsayılar , burada bağımlı değişken ve bir öngörücüdür) bildirilen rapor edilen eşleşmiyor gibi görünüyor :ββx1=Bx1SDx1SDyyx1R2

resim açıklamasını buraya girin

Rağmen 've s -0,83, -0.29, -0.16, -0.43, 0.25, ve -0.29, rapor , sadece 0.20.βR2

Ayrıca, üç belirleyici: ağırlık, BMI ve% yağ çok kolleardır, cinsiyetler arasında r = 0.8-0.9 civarında korelasyon gösterir.

Mi , bunlarla değeri makul 'arasında düz bir ilişki s, ya da ler ve' ?R2ββR2

Ek olarak, çok doğrusal doğrusal öngörücülerle ilgili problemler , yukarıda belirtilen üç değişkenle r = 0.4 arasında korelasyon gösteren dördüncü bir öngörücünün (VO2max) beta'sını etkileyebilir mi?β


Bu bağlamda nedir ? Beta katsayısı (standart regresyon)? Veya başka bir şey? Eğer öyleyse, o zaman gerçekten bir şey söyleyemezsiniz, elde ettiğiniz tek şey standart sapmalar açısından bir yorumdur. βR2
Katsayının

1
ß standartlaştırılmış b katsayılarını ifade eder. 1 öngörücü durumda ß, doğrudan R-kare ile ilişkili olan pearson'un r'sine eşittir, ancak bu çok değişkenli durumda, neden yüksek ß'ler yüksek bir R-kare anlamına gelmez?
Sakari Jukarainen

2
Hayır, bir regresör durumunda Pearson korelasyonuna eşit değildir: . s ve arasındaki ilişki o kadar basit değildir. ββ=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Richard Hardy

5
@RichardHardy Bu karışıklığın Sakari'nin standart regresyon katsayısı olarak tanımlaması olduğundan şüpheleniyorum . İki değişkenli doğrusal regresyon (gerileme katsayısı olarak Sakarı en gösterimde) olan , korelasyonu ve standart sapma. Bir regresyon katsayısını standartlaştırmak için, katsayıyı standart sapması ile böleriz ve bu standart sapması ile çarparız , bu nedenle sadece korelasyon kalır. Sakari haklı. βbrxysysxrsyx
Maarten Buis

Hala neden bunun yanlış olduğunu düşündüğünü görmüyorum? Makalede bazı özet istatistikler varsa, sayıların toplanıp toplanmadığını kontrol edebilirsiniz. Bunu yapmak için formülü bile girdiniz. Sonuçların abosulte terimlerle büyük olması nedeniyle, modellerin y'deki varyansı açıklamada iyi bir iş çıkardığı sonucuna varamazsınız.
Repmat

Yanıtlar:


17

En küçük kareler regresyon geometrik yorumu gerekli bilgiler sağlar.

Bilmemiz gerekenlerin çoğu, yanıtı olan iki ve görülebilir . Standardize katsayıları, her üç vektörler (biz birlik olmaya sürebilir) ortak bir uzunluğa standardize edildiğinde ya da "betalar," ortaya çıkar. Bu nedenle, ve bir düzlemde birim vektörlerdir --they birim çember üzerinde yer - ve , üç boyutlu bir Öklid alan bir birim vektör uçağa ihtiva etmektedir. Takılan değer , üzerine dik (dikey) projeksiyonudur . Çünküx1x2yx1x2E2yE3y^yE2R2sadece y'ın kare uzunluğu, üç boyutu bile görselleştirmemize gerek yok: İhtiyacımız olan tüm bilgiler bu düzlemde çizilebilir.y^

Dik regresörler

En güzel durum, ilk şekilde olduğu gibi regresörlerin dikey olması.

Şekil 1, regresörleri ve $ \ hat y $ bir düzlemde vektörler olarak göstermektedir.

Bu ve diğer şekillerde birim diski sürekli olarak beyaza ve regresörleri siyah oklar olarak çizeceğim. her zaman doğrudan sağa işaret edecektir. Kalın kırmızı oklar bileşenlerini tasvir de ve gibidir: yönleri ve . Uzunluğu ama unutmayın - bu uzandığı gri dairenin yarıçapıdır olduğux1y^x1x2β1x1β2x2y^R2 kare bu uzunluktaki.

Pisagor Teoremi iddia

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

Pisagor Teoremi herhangi bir sayıda boyuta sahip olduğu için, bu akıl yürütme, herhangi bir sayıda regresöre genelleme yaparak ilk sonucumuzu verir:

Regresörler dikey olduğunda, betaların karelerinin toplamına eşittir.R2

Acil bir sonuç, sadece bir regresör - tek değişkenli regresyon olduğunda - standart eğimin karesidir.R2

korele

Negatif korelasyonlu regresörler dik açıdan daha büyük açılarda buluşur.

Şekil 2, negatif korelasyonlu regresörleri gösterir

Bu görüntüde, betaların karelerinin toplamının kesinlikle daha büyük olduğu açıkça görülüyor. R2. Bu, Kosinüs Yasası kullanılarak veya Normal Denklemlerin matris çözümü ile çalışılarak cebirsel olarak kanıtlanabilir.

İki regressörü neredeyse paralel hale getirerek, y^ menşe yakın (bir R2 yakın 0) büyük bileşenlere sahip olmaya devam ederken, x1 ve x2Yön. Bu nedenle, ne kadar küçük olduğuna dair bir sınır yoktur.R2 olabilir.

şekil

Bu açık sonucu, ikinci genelliğimizi anlatalım:

Regresörler ilişkili olduğunda, R2 betaların karelerinin toplamından keyfi olarak daha küçük olabilir.

Bununla birlikte, bir sonraki rakamın gösterdiği gibi, bu evrensel bir ilişki değildir.

Şekil 3, negatif korelasyonlu regresörleri gösterir, ancak betaların zıt işaretleri vardır.

şimdi R2betaların karelerinin toplamını kesinlikle aşıyor. İki gerilimi birbirine yakın tutarak vey^ aralarında betaların her ikisine de yaklaşabiliriz 1/2, hatta R2 yakın 1. Daha fazla analiz biraz cebir gerektirebilir: Bunu aşağıda ele alıyorum.

Akut açılarda buluşan pozitif korelasyonlu regresörler ile benzer örnekler inşa etmeyi hayal gücünüze bırakıyorum.

Bu sonuçların eksik olduğuna dikkat edin: Ne kadar az R2betaların karelerinin toplamı ile karşılaştırılabilir. Özellikle, olasılıkları dikkatle inceleyerek, (iki regresörle gerileme için)

Regresörler pozitif korelasyon gösterdiğinde ve betaların ortak bir işareti olduğunda veya regresörler negatif korelasyonu olduğunda ve betaların farklı işaretleri olduğunda, R2 en azından betaların karelerinin toplamı kadar büyük olmalıdır.


Cebirsel sonuçlar

Genel olarak, regresörler olsun (sütun vektörleri) x1,x2,,xp ve cevap y. Standartlaştırma araçları (a) her biri vektöre diktir(1,1,,1) ve (b) birim uzunlukları varsa:

|xi|2=|y|2=1.

Sütun vektörlerini birleştirme xi Içine n×p matris X. Matris çarpımının kuralları,

Σ=XX

korelasyon matrisi xi. Betalar Normal Denklemler tarafından verilir,

β=(XX)1Xy=Σ1(Xy).

Dahası, tanım gereği, uyum

y^=Xβ=X(Σ1Xy).

Kare uzunluğu verir R2 tanım olarak:

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

Geometrik analiz, ilgili eşitsizlikleri aramamızı önerdi. R2 ve betaların karelerinin toplamı,

i=1pβi2=ββ.

L2 herhangi bir matrisin normu A katsayılarının karelerinin toplamı ile verilir (temel olarak matrisin bir vektörü olarak ele alınması p2 Öklid uzayındaki bileşenler),

|A|22=i,jaij2=tr(AA)=tr(AA).

Cauchy-Schwarz Eşitsizliği,

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

Kare korelasyon katsayıları geçilemediğinden 1 ve sadece p2 bunlardan p×p matris Σ, |Σ|2 Aşamaz 1×p2=p. bu nedenle

R2pββ.

Eşitsizlik, örneğin, xi mükemmel pozitif ilişkilidir.

Ne kadar büyük bir üst sınır var R2olabilir. Regresör başına ortalama değeri,R2/p, standart katsayıların karelerinin toplamını aşamaz.


Sonuçlar

Genel olarak ne sonuçlandırabiliriz? Açıkça, hakkındaki bilgiler korelasyon yapısı regresörler yanı sıra betalarının işaretleri olası değerlerini bağlı ya kullanılabilecekR2hatta tam olarak hesaplamak için. Tam bilgi olmadığında, regresörler doğrusal olarak bağımsız olduğunda, tek bir sıfır olmayan beta'nın ima ettiği gerçeğinin ötesinde çok az şey söylenebilir.y^ sıfırdan farklı, R2 sıfır değildir.

Sorudaki çıktıdan kesinlikle sonuca varabileceğimiz bir şey, verilerin ilişkili olduğudur: çünkü betaların karelerinin toplamı, 1.1301, mümkün olan maksimum değeri aşıyor R2 (yani 1), bazı korelasyonlar olmalıdır .

Başka bir şey, en büyük beta (boyut olarak) 0.83, karesi olan 0.69- rapor edilenin çok üzerinde R2 nın-nin 0.20- bazı regresörlerin negatif korelasyonlu olması gerektiği sonucuna varabiliriz . (Aslında,VO2max muhtemelen, geniş bir değer aralığını kapsayan herhangi bir örnekte yaş, ağırlık ve yağ ile güçlü bir şekilde negatif ilişkilidir.)

Sadece iki regresör olsaydı, R2 yüksek regresör korelasyonları ve betaların incelenmesi bilgisinden, çünkü bu nasıl yapılacağına dair doğru bir çizim yapmamızı sağlayacaktır. x1, x2, ve y^yerleştirilmelidir. Ne yazık ki, bu altı değişkenli problemdeki ek regresörler işleri önemli ölçüde karmaşıklaştırmaktadır. Değişkenlerden herhangi ikisini analiz ederken, diğer dört regresörü ("ortak değişkenler") "çıkarmamız" veya "kontrol etmemiz" gerekir. Böylece,x1, x2, ve ybilinmeyen miktarlarda (bunların üçünün ortak değişkenlerle nasıl ilişkili olduğuna bağlı olarak), birlikte çalıştığımız vektörlerin gerçek boyutları hakkında neredeyse hiçbir şey bilmemize izin verir .


+1 ama dikey olmayan durumda neden projeksiyon yaptığınızı anlamıyorum y^çıkıntılı noktalı çizgilerin diğer yordayıcıya paralel gitmesinin aksine, yordayıcı eksenlerine dik vektör . Kulağa hantal geliyor ama bence ne demek istediğimi göreceksin. "Projeksiyonlarınız" (iki küçük kırmızı vektör) büyük kırmızıya ulaşmak içiny^vektör.
amip

@amoeba Çok haklısın. Bu görüntüleri oluşturmakta çok aceleci oldum! Sorunu düzeltme fırsatı bulana kadar (umarım geçici olarak) bu yayını sileceğim. Bunu işaret ettiğiniz için teşekkür ederim.
whuber

@Amoeba Resimleri düzelttim ve analizi onlara uyacak şekilde değiştirdim. Ayrıntılar önemli ölçüde değişmiş olsa da, sonuçlar aynı kalıyor.
whuber

1
@amoeba Yine haklısın. İlgilenen okuyucuları kaybetme riskiyle karşı karşıyayız, ama şimdi geometrik sezgiyi ölçmek zorunda hissettik, bu sonucu sıkılaştırdım ve biraz cebirle haklı çıkardım. (Cebirin doğru olduğuna güveniyorum!)
whuber

1
Çok teşekkürler! Bir sidenote olarak, VO2max ağırlık ve BMI ile negatif korelasyon gösterir, çünkü daha yüksek yağsız vücut kütlesi ile ilişkilidir. Bahsedilen tabloda VO2max aslında VO2max'ın ağırlığa bölünmesiyle (VO2max'ı vücut boyutuna ölçeklendirmenin kötü bir yoludur) karşılık gelir. Tablodaki VO2max / ağırlık, belirttiğiniz gibi yüksek ß ancak düşük R-karesini açıklayabilen cinsiyet hariç diğer tüm öngörücülerle negatif korelasyon gösterir.
Sakari Jukarainen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.