Hata önlemleri nasıl yorumlanır?


41

Weka'da sınıflandırmayı belirli bir veri kümesi için çalıştırıyorum ve nominal bir değeri tahmin etmeye çalışırsam, çıkışın özellikle doğru ve yanlış tahmin edilmiş değerleri gösterdiğini fark ettim. Ancak, şimdi sayısal bir özellik için çalıştırıyorum ve çıktı:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

Bunu nasıl yorumlayabilirim? Her bir fikri googling yapmaya çalıştım, ancak istatistikler uzmanlık alanımda olmadığı için fazla bir şey anlamadım. İstatistiksel olarak bir ELI5 tipi cevabı çok takdir ediyorum.

Yanıtlar:


52

İlgi gerçek değerini ve bazı algoritmaları kullanarak olarak tahmin edilen değeri gösterelim .θθ^

Korelasyon size ve nin ne kadar ilişkili olduğunu söyler . ile arasında değerler verir , burada ilişki yoktur, çok güçlüdür, doğrusal ilişki ve ters doğrusal bir ilişkidir (yani, daha büyük değerleri veya daha küçük değerleri belirtir) tam tersi). Aşağıda resimli bir korelasyon örneği bulacaksınız.θθ^11011θθ^

Korelasyon örneği

(kaynak: http://www.mathsisfun.com/data/correlation.html )

Ortalama mutlak hata:

MAE=1Ni=1N|θ^iθi|

Kök ortalama kare hatası :

RMSE=1Ni=1N(θ^iθi)2

Göreceli mutlak hata :

RAE=i=1N|θ^iθi|i=1N|θ¯θi|

burada , ortalama bir değeridir .θ¯θ

Kök bağıl kare hatası:

RRSE=i=1N(θ^iθi)2i=1N(θ¯θi)2

Gördüğünüz gibi, tüm istatistikler gerçek değerleri tahminleriyle karşılaştırır, ancak biraz farklı bir şekilde yapar. Hepsi size "ne kadar uzak" olduğunu, gerçek değerinden tahmini değerleriniz olduğunu söylüyor . Bazen kare kökler kullanılır ve bazen mutlak değerler - bunun nedeni kare kökleri kullanırken aşırı değerlerin sonuç üzerinde daha fazla etkiye sahip olmalarıdır (bkz . Standart sapmadaki veya Mathoverflow'ta mutlak değeri almak yerine farkı neden kare )?θ

In ve sadece bu iki değer arasındaki "ortalama farkın" bakmak - Eğer onları valiable ölçeği (yani karşılaştırarak yorumlamak böylece 1 noktasının bir olduğunu 1 noktasında farkı arasında ve ).MAERMSEMSEθθ^θ

Gelen ve Eğer varyasyonu ile bu farklılıkları bölmek de 0 'dan 0-100 benzerliği elde 100 ile bu değerin 1 ve çarpma eğer bir ölçek, böylece (yani yüzde ). Değerleri veya ortalama değerinden ne kadar farklı olduğunu size söyleyin - böylelikle kendisinden ne kadar farklı olduğunu söyleyebilirsiniz ( varyansa kıyasla ). Bu yüzden ölçüler "göreceli" olarak adlandırılır - bunlar ölçeğiyle ilgili sonuç verir .RAERRSEθ(θ¯θi)2|θ¯θi|θθθ

Ayrıca bu slaytları da kontrol edin .


Açıklamanız için teşekkürler! Çeşitli algoritmaların performansını değerlendirmeye çalışıyorum. Örneğin, eğer bu diğer çıktıyı elde edersem (Korelasyon: 0.3044, MAE: 10.832, MSE: 47.2971, RAE: 83.163%, RSE: 95.2797) ve bunu birincisi ile karşılaştırmaya çalışacağım, hangisinin yaptığını söyleyebilirim daha iyi?
Floancu

5
Daha büyük korelasyonlu ve daha küçük hata tahminleriyle modeli seçmelisiniz. Gördüğünüz gibi, çoklu model performans ölçütleri var (ve bunlar sadece birkaç tanesi) ve bazen farklı cevaplar veriyorlar. Neredeyse asla "evet / hayır" şeklinde bir cevap alırsınız. Model seçiminin görevi teoriyi yakalarsanız daha kolay olur, örneğin bu dersleri kontrol edebilirsiniz .
Tim

Çok teşekkür ederim! Devam ettim ve cevabınızı cevap olarak işaretledim çünkü bana çok yardımcı oldunuz!
Floancu

1
@Tim Ortalama mutlak hata muhtemelen MAE :) olarak kısaltılmalıdır
Antoine

1
@MewX Ne tür referanslar arıyorsunuz? Temelde yeniden ölçeklendirilmiş bir RMSE'dir. Bu konuda söylenecek fazla bir şey yok ...
Tim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.