Bir regresyon modelinin performansını eğitim ve test setlerini kullanarak mı değerlendiriyorsunuz?


10

Sıklıkla bir test modelini uzatarak ve eğitim setinde bir model eğiterek bir sınıflandırma modelinin performansını değerlendirmeyi duyarım. Daha sonra biri tahmin edilen değerler ve diğeri gerçek değerler için olmak üzere 2 vektör oluşturuldu. Açıkçası bir karşılaştırma yapmak, kişinin F-Skoru, Kappa İstatistiği, Hassasiyet ve Geri Çağırma, ROC eğrileri vb.

Bu, regresyon gibi sayısal tahminleri değerlendirmeyle nasıl karşılaştırılır? Regresyon modelini eğitim setinde eğitebileceğinizi, değerleri tahmin etmek için kullanabileceğinizi, sonra bu öngörülen değerleri test setinde oturan gerçek değerlerle karşılaştırabileceğinizi varsayabilirim. Açıkçası performans ölçütleri farklı olmalı, çünkü bu bir sınıflandırma görevi değildir. Genel kalıntılar ve istatistikleri bariz önlemlerdir, ancak regresyon modellerinin performansını değerlendirmenin daha iyi / daha iyi yolları var mı? Sınıflandırmanın çok fazla seçeneği var gibi görünüyor, ancak regresyon ve artıklara bırakıldı .R 2R2R2


1
Tam olarak hangi soruyu sorduğunuzdan emin değilim, ancak sürekli çıktıya sahip bir regresyon modeli için açık bir hata ölçüsü, model çıktısı ve sonuç değişkeni arasındaki ortalama kare hatası (MSE).
BGreene

Yani sadece gerçek ve tahmin edilen arasında bir hata ölçüsü.
StatTime

Evet, eğitim setinde optimize edildi ve test seti kullanılarak doğrulandı.
BGreene

Yanıtlar:


2

Söylendiği gibi, tipik olarak, Ortalama Kare Hatası kullanılır. Regresyon modelinizi egzersiz setinize göre hesaplar ve test setinin (y) çıkışları ile verilen çıkışlar arasındaki MSE'yi hesaplayarak ayrı bir test seti (x girişleri ve bilinen tahmini çıkışlar y'de bir set) kullanarak performansını değerlendirirsiniz. aynı girişler (x) için modele (f (x)) göre.

Alternatif olarak aşağıdaki metrikleri kullanabilirsiniz: Kök Ortalama Kare Hatası, Bağıl Kare Hatası, Ortalama Mutlak Hata, Bağıl Mutlak Hata ... (google'dan tanım isteyin)


İyi cevap. Bunların hepsi dağıtımın ikinci anıyla ilişkilidir. Yanlılığı ortadan kaldırmaya veya istediğiniz herhangi bir kombinasyonu kullanmaya çalışıyorsanız, farklılıkların toplamına da bakabilirsiniz. Örneğin, burada A ve B, her puanlama yöntemi için ağırlık seçilir. Gerçekten, sizin probleminiz için hangi faktörlerin önemli olduğuna bağlı olacaktır. err=A(xxi)+B(xxi)2
Greg Petersen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.