Regresyon modelimin iyi olup olmadığı nasıl kontrol edilir


10

'Glm' kullanarak lojistik regresyon modelinin doğruluğunu bulmanın bir yolu AUC grafiğini bulmaktır. Sürekli yanıt değişkeniyle (regresyon = 'gaussian') bulunan regresyon modeli için aynısı nasıl kontrol edilir?

Regresyon modelimin verilere ne kadar uygun olduğunu kontrol etmek için hangi yöntemler kullanılır?


r-squaredEtikete ve etikete bakmak isteyebilirsiniz goodness-of-fit..
Macro

2
Doğrusal bağlantılı "Gauss" ailesi sadece en küçük kareler (OLS) regresyonudur; Bu tür uygunlukları kontrol etme yöntemleri muhtemelen bu sitede bin soruda tartışılmaktadır (abartmıyorum).
whuber

Yanıtlar:


15

Başlangıç ​​olarak " doğrusal regresyon modeli teşhisi " ile ilgili kısa bir araştırma önereceğim . Ama kontrol etmenizi önerebileceğim bazıları:

Varsayımların tatmin edici bir şekilde karşılandığından emin olun

  • Bağımsız öngörücü (ler) ve bağımlı değişken arasındaki doğrusal ilişkiyi incelemek için dağılım grafiği veya bileşen artı artık grafik kullanın.

  • Standartlaştırılmış kalıntı ile öngörülen değere sahip bir arsa oluşturun ve çok yüksek kalıntı ile aşırı bir nokta olmadığından emin olun ve tortunun yayılması, tahmin edilen değer boyunca büyük ölçüde benzer ve aynı zamanda artık ortalamanın üstünde ve altında yayılır, sıfır.

  • Ayrıca, y eksenini artık . Bu grafik eşit olmayan varyansın tanımlanmasına yardımcı olur.2

  • Bağımsızlık varsayımının makul olmasını sağlamak için çalışma tasarımını yeniden inceleyin.

  • Olası eşbiçimliliği incelemek için varyans enflasyon faktörünü (VIF) veya tolerans istatistiklerini alın.

Potansiyel etki noktalarını inceleyin

  • Belirli bir veri noktasının regresyon sonuçlarınızı önemli ölçüde değiştirip değiştirmediğini öğrenmek için Cook'un D, ​​DFits veya DF Beta gibi istatistiklerini kontrol edin. Burada daha fazlasını bulabilirsiniz .

ve Düzeltilmiş istatistiklerindeki değişikliği inceleyinR 2R2R2

  • Karelerin regresyon toplamının karelerin toplamına oranı olan , bağımlı değişkeninizdeki değişkenliğin% kaçının model tarafından açıklandığını söyleyebilir.R2
  • Düzeltilmiş , ek öngörücüler (ler )im için getirilen fazladan karelerin gerçekten alacağı özgürlük derecesine değip değmediğini kontrol etmek için kullanılabilir.R2

Gerekli etkileşimi kontrol edin

  • Ana bağımsız bir öngörücü varsa, bağımsız etkisinin herhangi bir yorumunu yapmadan önce, diğer bağımsız değişkenlerle etkileşime girip girmediğini kontrol edin. Etkileşim, ayarlanmadan bırakılırsa, tahmininizin yanlılığına neden olabilir.

Modelinizi başka bir veri kümesine uygulayın ve performansını kontrol edin

  • Regresyon formülünü diğer ayrı verilere de uygulayabilir ve ne kadar iyi tahmin ettiğini görebilirsiniz. Dağılım grafiği gibi grafik ve gözlenen değerden% farkı gibi istatistikler iyi bir başlangıç ​​olabilir.

2
(+1): Çok eksiksiz bir cevap! R kullanıyorsanız, plot.lmPenguin_Knight tanı alanlarının çoğunu size verebilir.
Zach

4

Nasıl ben çapraz doğrulamak onlar yeni verilere genelleme ne kadar iyi görmek için benim regresyon modelleri. Seçim ölçütüm , çapraz doğrulanmış verilerde ortalama mutlak hata , ancak kök ortalama kare hatası daha yaygın ve eşit derecede faydalı.

R2, eğitim verilerinde hesaplanan hemen hemen her hata metriği aşırı uyuma eğilimli olacağından, modelinizin egzersiz verilerine ne kadar iyi uyduğunun iyi bir metriği olduğunu düşünmüyorum. Eğitim setinde R2'yi hesaplamanız gerekiyorsa, ayarlanmış R2'yi kullanmanızı öneririm .


1

Modelinizin egzersiz verilerine ne kadar uyduğunu incelemek için kullanabilirsiniz . Bu, verilerdeki varyansın yüzde kaçının model tarafından açıklandığını size söyleyecektir.R2

Gerçek değerle karşılaştırıldığında test kümenizdeki tahminlerinizin RMSE (kök ortalama kare hatası) kullanılmasını öneririm. Bu, sürekli bir değişkenin tahmin hatasını bildirmenin standart bir yöntemidir.


1
@Macro Ancak soru başlangıçta gauss hatalarıyla bir OLS Regresyonu için bir performans ölçümü istedi. Lojistik regresyondan geliyor.
Erik

@Erik, teşekkürler, yanlış okudum. Her neyse, ilk bölümle ilgili olarak, başına, OP'nin sözlerini kullanmak için "regresyon modelimin iyi olup olmadığını kontrol etmek" için kullanılabileceğini düşünmüyorum . Modeliniz hala yüksek bir sahipken verilerin büyük çoğunluğunu etkili bir şekilde tahmin edememek için sefil bir şekilde başarısız olabilir . Bir örnek için buraya bakın - örnek (1) 'de, neredeyse hiçbir tahmin gücü yoktur, ancak hala yüksektir. R2R2R2
Makro

@Macro, yorumlarınıza katılıyorum, ancak
OP'yi

0

Parametrik olmayan (örn. Bir çekirdek regresyonu) veya yarı parametrik tahmin çizerek ve parametrik yerleştirilmiş eğri ile karşılaştırarak parametre tahmin edicimin fonksiyonel biçimini kontrol etmek için kullanılır . Bunun ilk adımda etkileşim terimlerini veya daha yüksek dereceli terimleri eklemekten daha hızlı (ve belki de daha kavrayıcı) olduğunu düşünüyorum.

R paketi np birçok hoş parametrik olmayan ve yarı parametrik fonksiyon sağlar ve Vignette'i iyi yazılmıştır: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.