Negatif R kare ne demektir?


17

Diyelim ki bazı verilerim var ve sonra verileri bir modelle (doğrusal olmayan regresyon) sığdırıyorum. Sonra R-karesini ( ) hesaplıyorum .R2

R kare negatif olduğunda, bu ne anlama geliyor? Bu, modelimin kötü olduğu anlamına mı geliyor? aralığının [-1,1] olabileceğini biliyorum . Ne zaman ortalama bunu da ne, 0 mı?R 2R2R2


4
Bu, R ^ 2'nin tanımı gereği [0, 1]R,2 içinde yer aldığı için yanlış bir şey yaptığınız anlamına gelir . Diğer taraftan ayarlanan R ^ 2 negatif olabilir, bu da güvenli bir şekilde modelinizin verilere çok zayıf oturduğunu varsayabilirsiniz. Zaman R ^ 2 , tam olarak, bu vasıtalar sıfır {y} \ çubuğu iyi olarak, sadece bir belirleyicisidir y en küçük kareler regresyon doğrusu kendisi. [0,1]R,2 R,2y¯y
dsaxton

1
Bu, kesinti olmadan bir regresyon için mümkündür, bkz. Örn. Stats.stackexchange.com/questions/164586/…



@gung Bunun muhtemelen bu sorunun bir kopyası olduğunu öne sürmek üzereydim ... sizce yeterince farklılar mı? (Rahatsız edici SPSS sözdizimi olmadığı için bu soru diğerinden daha güzel görünüyorsa, ancak diğer konudaki cevaplar çok iyi ve bu soruyu da kapsıyor gibi görünüyor.)
Silverfish

Yanıtlar:


37

R,2 negatif olabilir, sadece şu anlama gelir:

  1. Model verilerinize çok kötü uyuyor
  2. Bir müdahale belirlemedin

0 ile 1 arasında olduğunu söyleyenlere , durum böyle değildir. İçinde 'kare' kelimesi olan bir şey için negatif bir değer matematik kurallarını ihlal ediyormuş gibi görünse de, bir modelinde kesişme olmadan olabilir. Nedenini anlamak için nasıl hesaplandığına bakmamız gerekir .R 2 R 2R,2R,2R,2

Bu biraz uzun - Cevabı anlamadan istiyorsanız, o zaman sonuna kadar atlayın. Aksi takdirde, bunu basit kelimelerle yazmaya çalıştım.

İlk olarak 3 değişken tanımlayalım: , ve .T S S E S SR,SSTSSESS

RSS hesaplanıyor :

Her bağımsız değişken için bağımlı değişkenine sahibiz . Her değeri için değerini tahmin eden en iyi doğrusal çizgiyi çiziyoruz . Hattın öngördüğü değerlerini . Satırınızın öngördüğü ve gerçek değerinin ne olduğu arasındaki hata çıkarma olabilir. Bütün bu farklılıklar kare ve rezidüel kareler toplamı veren toplanır .y y x y y y R S Sxyyxyy^yRSS

Bunu bir denkleme koymak,RSS=(yy^)2

TSS hesaplanıyor :

olarak adlandırılan ortalama değerini hesaplayabiliriz . Biz çizmek Eğer o sabit olduğu için, bu verileri üzerinden sadece yatay çizgi olduğunu. Biz olsa onunla yapabilecekleriniz, çıkarma olduğunu (ortalama değeri her fiili değerinden) . Sonuç kare ve toplam eklenir, bu da toplam karelerinin toplamını verir .ˉ y ˉ y ˉ y y y T S Syy¯y¯y¯yyTSS

Bunu denklemine koymakTSS=(yy¯)2

ESS hesaplanıyor :

( satır tarafından tahmin edilen değerleri ) ve ortalama değer arasındaki farklar kareye alınır ve eklenir. Bu, eşit açıklanmış kareler y ˉ y Σ( y - ˉ y )2y^yy¯(y^y¯)2

Unutmayın, , ancak içine bir ekleyebiliriz , çünkü kendini iptal eder. Bu nedenle, . Bu parantezleri genişleterekTSS=(yy¯)2+y^y^TSS=(yy^+y^y¯)2TSS=(yy^)2+2(yy^)(y^y¯)+(y^y¯)2

Ne zaman ve sadece çizgi kesişme ile işaretlendiğinde, aşağıdakiler her zaman doğrudur: . Bu nedenle, fark edebileceğiniz , sadece anlamına gelir . Tüm terimleri böler ve yeniden düzenlersek alırız .2(yy^)(y^y¯)=0TSS=(yy^)2+(y^y¯)2TSS=RSS+ESSTSS1RSSTSS=ESSTSS

İşte önemli kısmı :

R,2 , varyansın ne kadarının modeliniz tarafından açıklandığı (modelinizin ne kadar iyi olduğu) olarak tanımlanır. Denklem formunda, bu . Tanıdık görünmek? Çizgi bir kesişme ile çizildiğinde, bunu . Hem pay hem de iblis kareler toplamı olduğundan, pozitif olmalıdır.R,2=1-R,SSTSSR,2=ESSTSSR,2

FAKAT

Bir kesişim belirtmediğimizde, mutlaka eşit değildir . Bu, .2*Σ(y-y^)(y^-y¯)0TSS=R,SS+ESS+2*Σ(y-y^)(y^-y¯)

Tüm terimleri , .TSS1-R,SSTSS=ESS+2*Σ(y-y^)(y^-y¯)TSS

Son olarak, . Bu kez, payın içinde karelerin toplamı olmayan bir terim vardır, bu yüzden negatif olabilir. Bu, negatif yapar. Bu ne zaman olur? , negatif ve pozitif olduğunda negatif olur veya tersi de geçerlidir. Bu, yatay çizgisi aslında verileri en uygun çizgiden daha iyi açıkladığında oluşur .R,2=ESS+2*Σ(y-y^)(y^-y¯)TSSR,22*Σ(y-y^)(y^-y¯)y-y^y^-y¯y¯

İşte negatif olduğu zamanların abartılı bir örneği (Kaynak: University of Houston Clear Lake)R,2

R ^ 2 negatif olduğunda abartılı bir örnek (Kaynak: University of Houston Clear Lake)

Basitçe söylemek gerekirse:

  • Ne zaman , bir yatay çizgi verilerini açıklıyor iyi modeliniz daha.R,2<0

Ayrıca hakkında da sordunuz .R,2=0

  • Zaman , yatay bir çizgi verileri aynı yanı sıra modelini açıklar.R,2=0

Bunu yapmak için sana minnettarım. Bunu yararlı bulduysanız, burada bahsetmek zorunda olduğum fcop'ın cevabını da kaldırmalısınız , çünkü bir süredir.


5
Cidden harika bir cevap! Benim için eksik olan tek şey, neden olduğunda ve sadece bir kesişme kümesi olduğunda sezgidir ? 2*Σ(y-y^)(y^-y¯)=0
Owen

6

Şimdiye kadar cevapların hiçbiri doğru değil, bu yüzden R-Squared anlayışımı vermeye çalışacağım. Buraya blog yazımdaki "R-Squared nedir" hakkında daha ayrıntılı bir açıklama yaptım

Toplam Kare Hatası

Sıradan en küçük kare regresyonunun amacı, toplam kare hatasını en aza indiren bir çizgi elde etmektir. Minimum toplam kare hatası içeren varsayılan çizgi, ortalama boyunca yatay bir çizgidir. Temel olarak, daha iyisini yapamazsanız, sadece ortalama değeri tahmin edebilirsiniz ve bu size minimum toplam kare hatası verecektir.

ortalama boyunca yatay çizgi

R-Kare, toplanan kare hatasına dayalı olarak yaptığınız ortalama çizgiden ne kadar iyi olduğunu ölçmenin bir yoludur. R-Kare'nin denklemi

r-kare denklemi

Şimdi SS Regresyonu ve SS Toplamı her iki kare terimin toplamıdır. Her ikisi de her zaman olumludur. Bu demektir ki 1 alıyoruz ve pozitif bir değer çıkarıyoruz. Bu nedenle, maksimum R-Kare değeri pozitif 1'dir, ancak minimum R negatif değerdir. Evet, bu doğru, R kare aralığı -infinity ile 1 arasında, -1 ve 1 değil, 0 ve 1 değil

Toplam Kare Hatası Nedir?

Toplam kare hatası, her noktada hatayı alıyor, kareyi alıyor ve tüm kareleri ekliyor. Toplam hata için, ortalama boyunca yatay çizgi kullanır, çünkü başka bir bilginiz yoksa, yani regresyon yapamıyorsanız, en düşük toplam kare hatasını verir.

resim açıklamasını buraya girin

Bir denklem olarak bu

toplam kare toplam hata denklemi

Şimdi gerileme ile amacımız ortalamadan daha iyisini yapmak. Örneğin, bu regresyon çizgisi, yatay çizgiyi kullanmaktan daha düşük bir toplam kare hatası verecektir.

resim açıklamasını buraya girin

Regresyon toplamı kare hatası denklemi şudur:

resim açıklamasını buraya girin

İdeal olarak, sıfır regresyon hatasına sahip olursunuz, yani regresyon hattınız verilerle mükemmel şekilde eşleşir. Bu durumda, bir R-Kare değeri 1 elde edersiniz

r kare değeri 1

Negatif R Kare

Yukarıdaki tüm bilgiler oldukça standarttır. Şimdi negatif R-Kare ne olacak?

Görünüşe göre, regresyon denkleminizin ortalama değerden daha düşük toplam kare hatası vermesi gerekmiyor. Genel olarak, ortalama değerden daha iyi bir tahmin yapamazsanız, sadece ortalama değeri kullanacağınız, ancak bunun nedeni olmaya zorlayacak bir şey olmadığı düşünülmektedir. Örneğin, her şey için medyanı tahmin edebilirsiniz.

Gerçek pratikte, normal en küçük kare regresyon ile, negatif bir R-Kare değeri elde etmek için en yaygın zaman, regresyon çizgisinin geçmesi gereken bir noktayı zorlamanızdır. Bu genellikle kesme noktası ayarlanarak yapılır, ancak regresyon çizgisini herhangi bir noktadan zorlayabilirsiniz.

Bunu yaptığınızda, regresyon çizgisi o noktadan geçer ve o noktadan geçerken minimum toplam kare hatasını almaya çalışır.

sabit nokta

Varsayılan olarak, regresyon denklemleri regresyon çizgisinin geçtiği nokta olarak ortalama x ve ortalama y kullanır. Ancak, regresyon çizgisinin normal olacağı yerden uzak bir noktadan zorlarsanız, yatay çizgiyi kullanmaktan daha yüksek toplam kare hatası alabilirsiniz.

Aşağıdaki görüntüde, her iki regresyon hattının da 0 kesişmesi zorunlu tutulmuştur.

negatif r kare

Üst noktalar için, kırmızı olanlar, regresyon çizgisi, başlangıç ​​noktasından da geçen mümkün olan en iyi regresyon çizgisidir. Sadece regresyon çizgisinin yatay bir çizgi kullanmaktan daha kötü olduğu ve dolayısıyla negatif bir R-Karesi verdiği olur.

Tanımsız R-Kare

Tanımsız bir R-Kare alabileceğiniz hiç kimsenin bahsetmediği özel bir durum var. Yani verileriniz tamamen yataysa, toplam toplam kare hatası sıfırdır. Sonuç olarak, tanımsız R-kare denkleminde sıfıra bölünerek sıfır elde edersiniz.

resim açıklamasını buraya girin

resim açıklamasını buraya girin


çok canlı bir cevap, bu türden çok daha fazla cevap görmek istiyorum!
Ben

0

Önceki yorumcunun belirttiği gibi, r ^ 2 [-1, + 1] değil [0,1] arasındadır, bu nedenle negatif olmak imkansızdır. Bir değerin karesini alamaz ve negatif bir sayı elde edemezsiniz. Belki de r'ye bakıyorsunuz, korelasyon? [-1, + 1] arasında olabilir, burada sıfır değişkenler arasında hiçbir ilişki olmadığı anlamına gelir, -1 mükemmel bir negatif ilişki olduğu anlamına gelir (bir değişken arttıkça, diğeri azalır) ve +1 mükemmel bir pozitiftir ilişki (her iki değişken de uyumlu olarak yukarı veya aşağı gider).

Gerçekten r ^ 2'ye bakıyorsanız, önceki yorumcunun açıkladığı gibi, muhtemelen gerçek r ^ 2'yi değil, düzeltilmiş r ^ 2'yi görüyorsunuzdur. İstatistiğin ne anlama geldiğini düşünün: Davranış bilimi istatistiklerini öğretiyorum ve öğrencilerime r ^ 2'nin anlamını öğretmeyi öğrendiğim en kolay yol "% varyans açıklandı". Dolayısıyla, r ^ 2 = 0.5'iniz varsa, model bağımlı (sonuç) değişkeninin varyasyonunun% 50'sini açıklar. Negatif bir r ^ 2'niz varsa, modelin sonuç değişkeninin negatif% 'sini açıkladığı anlamına gelir, bu da sezgisel olarak makul bir öneri değildir. Bununla birlikte, düzeltilmiş r ^ 2, numune boyutunu (n) ve belirleyici (p) sayısını dikkate alır. Hesaplamak için bir formül burada. Çok düşük bir r ^ 2'niz varsa, negatif değerler elde etmek oldukça kolaydır. Kabul edilirse, negatif bir düzeltilmiş r ^ 2, normal r ^ 2'den daha sezgisel bir anlama sahip değildir, ancak önceki yorumcunun dediği gibi, sadece modeliniz çok işe yaramazsa çok zayıf demektir.


3
R,2R,2

4
R,2<0

@FrankHarrell, örnek olması gerektiğinden emin misiniz? Verilmiş, ortalamadan daha kötü bir model oluşturmak için verileri oldukça güçlü bir şekilde göz ardı etmeniz gerekir, ancak bunu neden sadece örnek verilerle yapamadığınızı görmüyorum.
Matt Krause

Örneklemde, katsayıların tahmin edildiği örnek anlamına gelir. O zaman negatif olamaz.
Frank Harrell

1
günah(ω*x+φ)R,2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.