Bir regresyonda R-kare ve p-değeri arasındaki ilişki nedir?


17

tl; dr - OLS regresyonu için, daha yüksek bir R-kare aynı zamanda daha yüksek bir P değeri anlamına mı gelir? Özellikle tek bir açıklayıcı değişken için (Y = a + bX + e), fakat aynı zamanda n çok sayıda açıklayıcı değişken (Y = a + b1X + ... bnX + e) ​​için de ilgilenmek gerekir.

Bağlam - Bir dizi değişken üzerinde OLS regresyonu gerçekleştiriyorum ve her açıklayıcı (bağımsız) değişkenin doğrusal, logaritmik vb. Dönüşümleri arasındaki R-kare değerlerini içeren bir tablo üreterek en iyi açıklayıcı fonksiyonel formu geliştirmeye çalışıyorum. ve yanıt (bağımlı) değişkeni. Bu biraz benziyor:

Değişken adı - doğrusal form - --ln (değişken) --exp (değişken) - ... vb

Değişken 1 ------- R-kare ---- R-kare ---- R-kare -
... vb ...

R-karesinin uygun olup olmadığını veya P-değerlerinin daha iyi olacağını merak ediyorum. Muhtemelen bir ilişki vardır, çünkü daha önemli bir ilişki daha yüksek açıklayıcı güç anlamına gelir, ancak bunun titiz bir şekilde doğru olup olmadığından emin değildir.


Yanıtlar:


15

Cevap, hayır arasında, düzenli bir ilişki vardır için ve genel regresyon p-değeri R, 2 o ters olan artıkların varyans (yaptığı gibi bağımsız değişkenlerin varyans kadar değişir orantılı) ve bağımsız değişkenlerin varyansını rastgele miktarlarla değiştirmekte özgürsünüz.R2R2

Bir örnek olarak, dikkate bir çok değişkenli veri kümesini ile i durumlarda indeksleme ve varsayalım ki ilk bağımsız değişkenin değerler kümesi, { x i 1 } , benzersiz bir maksimuma sahip x * pozitif bir miktar ile en yüksek ikinci değer ayrılmış £ değerinin . Tüm değerleri daha küçük olan ilk değişkenin doğrusal olmayan bir dönüşümünü uygulayın((xi1,xi2,,xip,yi))i{xi1}xϵ aralığında [ 0 , 1 ] ve gönderir X * bir büyük bir değer kendisi M » 1 . Böyle bir M için bu,örneğinuygun bir (ölçekli) Box-Cox dönüşümü x a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) ile yapılabilir , bu yüzden hakkında konuşmuyoruz garip veya "patolojik" herhangi bir şey. Sonra M olarakxϵ/2[0,1]xM1Mxa((xx0)λ1)/(λ1))Mkeyfi büyük büyür, yaklaşır 1 olduğunca yakından sen lütfen, ne olursa olsun ilk bağımsız değişkenin varyansı için asimptotik orantılı iken artıkların varyans sınırlanmış olacaktır çünkü fit, ne kadar kötü bir M 2 .R21M2


Bunun yerine araştırmanızda uygun bir model seçmek için uyum iyiliği testlerini (diğer tekniklerin yanı sıra) kullanmalısınız: uyumun doğrusallığı ve artıkların eşcinselliliği konusunda endişelenmelisiniz . Ve ortaya çıkan güven regresyonundan herhangi bir p değeri almayın: bu alıştırmadan geçtikten sonra neredeyse anlamsız hale gelecektir, çünkü yorumları bağımsız değişkenleri ifade etme seçeneğinin bağımlı değişken hiç yok, ki burada durum böyle değil.


10

Bu cevap doğrudan merkezi soruyla ilgilenmez; bir yorum için çok uzun olan ek bilgilerden başka bir şey değildir.

Econometricstatsquestion kuşkusuz bu bilgileri ya da onun gibi bir şey bir noktada (belirten karşılaşacak çünkü bu out işaret ve R 2 olan yanlış değil - - burada diğer yanıtlar verilen bilgiler yanlışsa ilgili) ve merak ama sanırım neler olup bittiğine dair net olmak gerekir.FR2

Belirli koşullar altında bir ilişki vardır; Eğer gözlem sayısını ve belirli bir model için sabit belirleyicileri sayısını tutarsanız, içinde aslında monoton olduğunu R 2 beri,FR2

F=R2/(k1)(1R2)/(Nk)

(Pay ve paydayı böler ve sabitleri k olarak dışarı çekerseniz, 1 / F R2k N ve k sabitinitutarsanız 1 / R 2 - 1 olduğunu görebilirsiniz.)1/F1/R21Nk

Df sabit, yana , p-değeri monoton bir şekilde ilişkilidir, R ' 2 ve p -değeri de monoton olarak ilişkilidir.FR2p

Ancak modelle ilgili hemen hemen her şeyi değiştirin ve bu ilişki değişen koşullarda değişmez.

Örneğin, bir nokta yapar ekleme daha büyük ve bir yapar daha küçük kaldırma ama ya da durumu arttırabilir veya azaltmak R 2 gibi görünüyor, bu yüzden F ve R 2 yok zorunlu birlikte eğer hareket veri ekler veya silersiniz. Değişken eklemek azalır ( N - k ) / ( k -(Nk)/(k1)R2FR2 , ancak artış R 2 (ve tam tersi), bu yüzden daha R, 2 bunlarla ilgili değildir(Nk)/(k1)R2R2Bunu yaptığınızda F.F

Karşılaştırmak kez Açıkçası, ve p -değerlerine genelinde farklı özelliklere sahip modeller whuber doğrusal olmayan dönüşümler durumunda ispat olarak, bu ilişki mutlaka tutmaz.R2p


Sana katılmıyorum, ama görünüşe göre benden farklı bir soruya cevap veriyorsun. Bazı okuma aldı, ama soru varsa arasındaki ne tutar ilişki sorar sonucuna ve R 2 (caeteris paribus) bağımsız değişkenler lineer olmayan dönüştürüldüğünde yeniden. Sadece bu değişkenler değişmeden bırakıldığında - ya da en fazla kendi aralarında doğrusal olarak dönüştürüldüğünde - böyle bir ilişki hakkında hiçbir şey söyleyemeyiz. Bu, belirli bir model için niteleyicinizin anlaşılması gerektiğini düşündüğüm anlamın bir parçası. pR2
whuber

Farklı bir soruya cevap veriyorum; ve ben sizin anlam yorumunuzun doğru olduğuna inanıyorum. Ortaya koyduğum gibi bir sorunun açıklanmazsa karışıklığa yol açacağından daha endişeliydim. Bütün puanlarınız benim anlayışım için geçerlidir. (Şimdi, aslında, belki de cevabımın umduğum gibi açıklığa kavuşmadığından endişe ediyorum, ama sadece konuyu karıştırıyor. Sence yardımcı olacak uygun bir değişiklik var mı? Silmeliyim mi?)
Glen_b

Silindiğini görmek nefret ederdim, Glen. Değişiklik yapmak istiyorsanız, bu sorunun hangi yönleri hakkında yazdığınızı ( örneğin , "verilen bir model" ile tam olarak ne demek istediğinizi ve "farklı özelliklere" sahip modeller hakkında ne düşündüğünüzü) daha açık bir şekilde belirtmeyi düşünün . Bu, yorumumu sunduğum ruh (işbirlikçi, eleştirel değil) idi.
whuber

Sizin tarafınızdan eleştirildiğimi hissetmedim - açıklayıcı görünüyordunuz ve başka bir şey yok - ama buna duyulan ihtiyaç, yorum yapmadan önce endişe duyduğum cevaptaki bir yetersizliği vurguluyor. 'Farklı özelliklerin' belirsizliği, oldukça genel bir şey olmasıdır - her şeyden çok çeşitlidir (bir noktayı kaldırmak veya bir kişinin ne kadar az değişmesi gerektiğini göstermek için bir değişken eklemek gibi basit bir şeyin örneklerini bile veririm) bu monotonik ilişkiyi yapabilir buharlaşmak. Daha ne söyleyebileceğimi düşüneceğim.
Glen_b-Monica'yı

Düzenleme için +1: bunlar değerli yorumlardır ve özellikle formülünün görünmesini sağlamak yararlıdır . F
whuber

3

"OLS regresyonu için, daha yüksek bir R-kare de daha yüksek bir P-değeri mi ima eder? Özellikle tek bir açıklayıcı değişken için (Y = a + bX + e)"

Özellikle tek bir açıklayıcı değişken için, örneklem büyüklüğü göz önüne alındığında , cevap evettir. Glen_b açıklandığı gibi, arasında doğrudan bir ilişki vardır ve test istatistik (bir olsun F veya T ). (Diğer söz açıklandığı gibi Örneğin, yüksek R, 2 kare ve yüksek p basit doğrusal regresyonu için-değeri bir ortak değişken (ve bir sabit) ile regresyon doğrusal basit için), arasındaki ilişki, t ve R 2 olduğu:R2FtR2ptR2

|t|=R2(1R2)(n2)

Bu durumda, düzelttiğinizde , R 2 daha yüksek olurnR2t

"ancak n çok sayıda açıklayıcı değişken (Y = a + b1X + ... bnX + e) ​​ile de ilgilenmek gerekir."

Cevap aynı, ancak sadece bir değişkene bakmak yerine, şimdi tüm değişkenlere birlikte bakıyoruz - dolayısıyla Fn

Bağlam - Çeşitli değişkenler üzerinde OLS regresyonu gerçekleştiriyorum ve en iyi açıklayıcı fonksiyonel formu geliştirmeye çalışıyorum (...)

Tamam, bu aslında farklı bir problem. En iyi açıklayıcı fonksiyonel forma bakıyorsanız, çapraz doğrulama tekniklerine de göz atmalısınız . , sorununuz için ilgi miktarı olsa bile (genellikle değil), numuneye en uygun olanı bulmak çok yanıltıcı olabilir - genellikle bulgularınızın örneklemden genelleştirilmesini ve doğru çapraz doğrulamanın verilerinizi çok fazla değiştirmemenize yardımcı olur.R2

Ve burada "tahmini" güç istediğinizi tahmin ediyorum ("en iyi açıklayıcı fonksiyonel formu" bulmak istediğinizi söylediğiniz için). Örneğin nedensel çıkarım yapmak istiyorsanız, o zaman R2 veya diğer öngörü performans ölçümleri sorunun daha yapısal / asli bilgisi olmadan çok fazla yararlı olmayacaklardır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.