Neden kullanamıyoruz


10

Bağımlı değişken ile doğrusal bir regresyon modelimiz olduğunu düşünün . Biz onun bulmak . Şimdi, başka bir gerileme yapıyoruz, ancak bu sefer ve benzer şekilde buluyoruz . Hangi modelin daha uygun olduğunu görmek için her iki karşılaştıramayacağım söylendi . Neden? Bana verilen neden, farklı miktarların (farklı bağımlı değişkenler) değişkenliğini karşılaştırmamızdır. Bunun bunun için yeterli bir sebep olması gerektiğinden emin değilim.yRy2log(y)Rlog(y)2R2

Ayrıca bunu resmileştirmenin bir yolu var mı?

Herhangi bir yardım mutluluk duyacağız.


1
Bunun daha önce Cross Valtedted'te tartışılmış olabileceğinden şüpheleniyorum. Benzer konuları iyice incelediniz mi? Ayrıca, farklı bağımlı değişkenleri (GSYİH'ye karşı petrol fiyatı gibi) veya aynı değişkenin dönüşümlerini (GSYİH'ye karşılık GSYİH büyümesi) veya her ikisini de önemsiyor musunuz?
Richard Hardy

@RichardHardy Buldum, ama sanırım soruma teğet. Bunun gibi: stats.stackexchange.com/questions/235117/… Cevap sadece evet nedenini açıklamıyor , evet diyor.
Denizde yaşlı bir adam.

@RichardHardy Bağımlı değişkenin dönüşümleriyle ilgileniyorum.
Denizde yaşlı bir adam.

1
R2karşılaştırmalar sadece iç içe modeller arasında anlamlıdır.
LVRao

@LVRao Yorumunuz için teşekkürler. Neden böyle?
Denizde yaşlı bir adam.

Yanıtlar:


8

Bu iyi bir soru, çünkü "farklı miktarlar" bir açıklama gibi görünmüyor.

Kullanmaktan kaçınmak için iki önemli neden var R,2Bu modelleri karşılaştırmak için: çok kaba ( uyum iyiliğini gerçekten değerlendirmez ) ve modellerden en az biri için uygun olmayacaktır. Bu cevap bu ikinci konuyu ele almaktadır.


Teorik Tedavi

R,2model artıklarının varyansını cevapların varyansı ile karşılaştırır. Varyans, bir uyumdan ortalama bir kare katkı sapmasıdır. Bu nedenle, anlayabilirizR,2 iki tepki modelini karşılaştırarak y.

"Temel" modeli olduğunu

(1)yben=μ+δben

nerede μ bir parametredir (teorik ortalama yanıt) ve δben bağımsız rastgele "hatalar", her biri sıfır ortalama ve ortak varyans τ2.

Doğrusal regresyon modeli vektörleri tanıtırxben açıklayıcı değişkenler olarak:

(2)yben=β0+xbenβ+εben.

Numara β0 ve vektör βparametrelerdir (kesişme ve "eğimler"). εben yine her biri sıfır ortalama ve ortak varyansa sahip bağımsız rastgele hatalardır σ2.

R,2 varyanstaki azalmayı tahmin eder, τ2σ2, orijinal varyansa kıyasla τ2.

Logaritmalar aldığınızda ve modele sığması için en küçük kareler kullandığınızda , formun bir ilişkisini dolaylı olarak karşılaştırıyorsunuzdur.

(1a)log(yi)=ν+ζi

formdan birine

(2a)log(yi)=γ0+xiγ+ηi.

Bunlar tıpkı modeller gibi (1) ve (2)ancak günlük yanıtlarıyla. Yine de ilk iki modele denk değiller. Örneğin,(2a) verirdi

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

Hata terimleri exp(ηi)şimdi altta yatan ilişkiyi çarpyi=exp(γ0+xiγ). Sonuç olarak cevapların varyansları

Var(yi)=exp(γ0+xiγ)2Var(eηi).

Varyanslar xi. Bu model değil(2), varyansların sabit bir değere eşit olduğunu varsayan σ2.

Genellikle, bu model setlerinden sadece biri verilerin makul bir açıklaması olabilir. İkinci seti uygulama(1a) ve (2a) ilk set ne zaman (1) ve (2)iyi bir modeldir, ya da ikincisi iyi olduğunda, doğrusal olmayan, heterossedastik bir veri kümesiyle çalışmak anlamına gelir, bu nedenle doğrusal bir regresyona zayıf bir şekilde uymalıdır. Bu durumlardan herhangi biri söz konusu olduğunda, daha iyi modelin daha büyük olanı sergilemesini bekleyebiliriz.R2. Ancak, durumun ikisi de değilse ne olur? Hala daha büyükR2 daha iyi modeli belirlememize yardımcı olmak için?

analiz

Bir anlamda bu iyi bir soru değil, çünkü her iki model de uygun değilse üçüncü bir model bulmalıyız. Ancak, önümüzdeki sorun,R2bu kararlılığı yapmamıza yardımcı oluyor. Dahası, birçok insan önce arasındaki ilişkinin şekli hakkında düşünüyorx ve y- doğrusal mı, logaritmik mi, başka bir şey mi - regresyon hatalarının özellikleri hakkında endişe duymadan εi veya ηi. Bu nedenle, modelimizin ilişkiyi doğru bulduğu, ancak hata yapısı hakkında yanlış olduğu veya tersi olduğu bir durumu ele alalım .

Böyle bir model (yaygın olarak ortaya çıkar), üstel bir ilişkiye uyan en küçük karelerdir,

(3)yi=exp(α0+xiα)+θi.

Şimdi logaritması ya, doğrusal işlevix, de olduğu gibi (2a), ancak hata terimleriθikatkı maddesi , olduğu gibi(2). Bu gibi durumlardaR2 arasında yanlış bir ilişki olan modeli seçmemize yol açabilir x ve y.

İşte modelin bir örneği (3). Var300 için gözlemler xben (1-vektör arasında eşit olarak dağılmış 1.0 ve 1.6). Sol panel orijinali gösterir(x,y) veriler sağ panelde (x,günlük(y))dönüştürülmüş veri. Kesikli kırmızı çizgiler gerçek altta yatan ilişkiyi çizerken, düz mavi çizgiler en küçük kareleri gösterir. Veriler ve gerçek ilişki her iki panelde de aynıdır: sadece modeller ve uyumları farklıdır.

saçılım

Sağdaki log yanıtlarına uyum açıkça iyidir: neredeyse gerçek ilişkiye rastlar ve her ikisi de doğrusaldır. Soldaki orijinal tepkilere uyum açıkça daha kötüdür: gerçek ilişki üstelken doğrusaldır. Ne yazık ki, oldukça büyük bir değere sahiptir.R,2: 0.70 nazaran 0,56. Bu yüzden güvenmemeliyizR,2Bizi daha iyi bir modele yönlendirmek için. Bu yüzden uygun olduğunda bile memnun olmamalıyızR,2 "yüksek" tir (ve birçok uygulamada, 0.70 gerçekten yüksek sayılır).


Bu arada, bu modelleri değerlendirmenin daha iyi bir yolu , uyum iyiliği testlerini (sağdaki log modelinin üstünlüğünü gösterecek) ve artıkların durağanlığı için teşhis grafikleri (her iki modelle ilgili sorunları vurgulayacaktır) içerir. Bu tür değerlendirmeler doğal olarak yagünlük(y) veya doğrudan modele (3) maksimum olasılık veya doğrusal olmayan en küçük kareler yöntemleri kullanılarak sığması gerekir.


R ^ 2'ye yönelik eleştiri adil değildir. Her alet gibi kullanımı iyi anlaşılmalıdır. Yukarıdaki örneklerinizde R ^ 2 doğru mesajı veriyor. R ^ 2 bir bakıma daha iyi sinyal / gürültü oranını seçmektedir. Tabii ki tamamen farklı ölçeklerde iki grafiği yan yana koyduğunuzda belli değil. Gerçekte soldaki sinyal, gürültü sapmalarına kıyasla çok güçlüdür.
Çağdaş Özgenç

@Cagdas Doğası gereği çelişkili bir mesaj sunuyor gibisiniz. İki grafik kaçınılmaz olarak iki farklı ölçekte olduğundan - biri orijinal yanıtları çiziyor, diğeri logaritmalarını çiziyor - sonra bu kaçınılmaz gerçek nedeniyle bir şeyin "açık olmadığı" yalın olduğunu savunuyor gibi görünmüyor. Bu cevabın "haksız" olduğundan şikayet etmek, sunduğum modellerin açık analizinin ışığında gerçekten ayakta kalmıyor.
whuber

Söylediklerimde herhangi bir çelişki yok. R ^ 2 daha yüksek sinyal / parazit oranını seçer. Yaptığı şey bu. Başka bir şeye çevirmeye çalışmak ve işe yaramadığını iddia etmek tamamen yanlıştır. R ^ 2'ye yönelik tüm eleştiriler, farklı yanıt değişkenine uygulandığında diğer uyum iyiliği göstergeleri için de geçerlidir, ancak bir nedenden dolayı R ^ 2 günah keçisi olarak seçilir.
Çağdaş Özgenç

Gerçekten bilmek istiyorum, @Cagdas, bu analizin "scapegoating" olarak gördüğünüz kısmı R,2. Anlayabildiğim kadarıyla, bunun ne olduğuna dair tartışmasız ve teknik olarak doğru bir değerlendirmeR,2başaramaz ve başaramaz. Aslında örnek açıkça daha iyi modelin (tarif ettiğim anlamda, çoğu insanın "uyum iyiliği" ile ne anlama geldiğini anlatır) nasıl ürettiğini gösterdiğinde "gürültü oranlarına sinyal" ifadesinin ne kadar alakalı olduğunu görmüyorum. daha kötüR,2.
whuber

2
Whuber yardımınız için teşekkürler. Geç kabul ettiğim için üzgünüm, son zamanlarda boş zamanım olmadı. ;)
Denizde yaşlı bir adam.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.