Kök ortalama kare hatası ve ortalama yanlılık sapmasının kavramsal anlaşılması


13

Kök Ortalama Kare Hatası (RMSE) ve Ortalama Sapma Sapması (MBD) hakkında kavramsal bir anlayış kazanmak istiyorum. Bu ölçümleri kendi veri karşılaştırmalarım için hesapladıktan sonra, RMSE'nin yüksek (örneğin 100 kg), MBD'nin düşük (örneğin,% 1'den az) olduğunu bulmak için sık sık şaşırdım.

Daha spesifik olarak, bu önlemlerin matematiğini listeleyen ve tartışan bir referans (çevrimiçi değil) arıyorum. Bu iki ölçüyü hesaplamanın normal olarak kabul edilen yolu nedir ve bunları günlük makalesinde nasıl rapor etmeliyim?

Bu yazının bağlamında, bu iki önlemin hesaplanmasını tanımlamak için kullanılabilecek bir "oyuncak" veri kümesine sahip olmak gerçekten yararlı olacaktır.

Örneğin, bir montaj hattı tarafından üretilen 200 parçacığın kütlesini (kg cinsinden) bulacağımı varsayalım. Ayrıca, bu widget'ların kütlesini tahmin etmeye çalışacak bir matematik modelim var. Model ampirik olmak zorunda değildir ve fiziksel olarak dayandırılabilir. RMSE ve MBD'yi gerçek ölçümler ve model arasında hesaplıyorum, RMSE'nin 100 kg ve MBD'nin% 1 olduğunu buluyorum. Bu kavramsal olarak ne anlama geliyor ve bu sonucu nasıl yorumlayacağım?

Şimdi bu deneyin sonucundan RMSE'nin 10 kg olduğunu ve MBD'nin% 80 olduğunu bulduğumu varsayalım. Bu ne anlama geliyor ve bu deney hakkında ne söyleyebilirim?

Bu önlemlerin anlamı nedir ve ikisi (birlikte alınır) ne ima eder? MBD, RMSE ile birlikte değerlendirildiğinde hangi ek bilgileri verir?


2
Sitemizin etrafına baktınız mı Nicholas? Stats.stackexchange.com/a/17545 adresinden başlamayı ve ardından sorunuza eklediğim bazı etiketleri keşfetmeyi düşünün .
whuber

@whuber: Teşekkürler whuber !. Sitenin etrafına baktım, ancak bana göre, kendi araştırmam bağlamında gerçekten ne anlama geldiğini anlamak biraz zor.
Nicholas Kinar

Yanıtlar:


21

Bence bu kavramları açıklamak kolay. Bu yüzden sadece burada tarif etmeyi tercih ederim. "Doktorlar, Hemşireler ve Klinisyenler için Biyoistatistiğin Temelleri" kitabımı içeren birçok temel istatistik kitabının bunu kapsadığından eminim.

Ortada boğa gözü olan bir hedef düşünün. Ortalama kare hatası, hedefte ve merkezde çekilen bir okla ortalama kare mesafesini temsil eder. Şimdi, oklarınız merkezin etrafına eşit olarak dağılmışsa, atıcı hedefleyen bir önyargıya sahip değildir ve ortalama kare hatası varyansla aynıdır.

Ancak genel olarak oklar hedeften uzak bir nokta etrafında dağılabilir. Okların okların merkezinden ortalama kare mesafesi varyanstır. Bu merkez, atıcıların nişan alma noktası olarak görülebilir. Bu atıcıların merkezinden veya hedef noktasından hedefin merkezine olan mesafe, önyargının mutlak değeridir.

Hipotenüs karesinin iki tarafın karelerinin toplamı olduğu bir dik üçgenin düşünülmesi. Dolayısıyla, oktan hedefe olan kare bir mesafe, ok ile hedef noktası arasındaki mesafenin karesi ve hedefin merkezi ile hedef noktası arasındaki mesafenin karesidir. Tüm bu kare mesafelerinin ortalaması, önyargı karesi ve varyansın toplamı olarak ortalama kare hatasını verir.


Teşekkür ederim; bu çok takdir ediliyor. Hala RMSE ve MBD arasındaki farkın ne olduğunu anlamak biraz zor buluyorum. Anladığım kadarıyla RMSE, bir modelin deneysel verilere ne kadar yakın olduğunu ölçüyor, ancak MBD'nin rolü nedir? Belki de yanlış anlaşılmam sadece terminoloji ile ilişkilidir.
Nicholas Kinar

1
Siz dediğiniz ortalama önyargı sapması, tarif ettiğim önyargı terimidir. Hedef noktasının hedeften ne kadar uzakta olduğunu ölçer. Önyargı, çekimi yanlış yapmanıza katkıda bulunur.
Michael R.Chernick

Tekrar teşekkürler, Michael. Yani yüksek bir RMSE ve düşük bir MBD iyi bir model olduğunu mu ima ediyor?
Nicholas Kinar

Hiçbir yüksek RMSE ve düşük MBD, modelin büyük bir önyargıdan ziyade büyük bir varyans nedeniyle zayıf olduğunu söylemez. RMSE, modelin ne kadar iyi olduğuna karar veren sayıdır.
Michael R.Chernick

1
@bbadyalina: yukarı / aşağı ve sola / sağa aynı şekilde bağımsız bilgi parçalarıdır. Sorunuz, "bir nokta dikey olarak ortalanmış mı ve sola doğru mı, ortada mı?" Diye sormak gibidir. veya "Bir nokta yüksekse ancak yatay olarak ortadaysa, ortada mı?"
naught101

1

RMSE, öngörücü modelimizin gerçek veriler üzerinde ne kadar iyi olduğunu ölçmenin bir yoludur, daha küçük RMSE modelin daha iyi davranması, yani yeni bir veri setinde (eğitim setimizde değil) test edip yine 0 ila 1 aralığında 0.37'lik bir RMSE, daha iyi bir model olarak 0.01'lik bir RMSE'ye sahip olmak yerine birçok hatayı açıklar. BIAS fazla tahmin veya az tahmin içindir.


Lütfen daha fazla ayrıntı ve hazırlanmış bir örnek verebilir misiniz? OP, 100'lük bir RMSE'nin tahmin problemine karşı anlamının sezgisel bir açıklamasını arıyor.
Xi'an

Bu pek sezgi getirmiyor gibi görünüyor. Biraz daha fazla açıklayabilir misin?
Glen_b -Monica

0

Anlayabildiğim kadarıyla, bir RMSE model ile gözlemlenen arasındaki hatanın daha doğru bir değerini verir, ancak BIAS, hatanın bir değerini vermenin yanı sıra (RMSE'den daha az doğru), modelin Model gözlenen değerleri hafife alıyor veya fazla tahmin ediyorsa, pozitif sapma veya negatif sapma.


Hayır. RMSE'yi bir modelin "hassasiyeti" olarak düşünebilirsiniz - örneğin tahminlerindeki hatalarda ne kadar yayılma olduğunu düşünebilirsiniz (not: hassasiyet, varyansın tersidir - yüksek varyans = düşük hassasiyet). Önyargı'yı modeldeki sistematik hata olarak düşünebilirsiniz - örneğin, tüm hataların ortalama değeri. "Doğruluk" çalışması, her ikisinin de belirsiz bir birleşimidir ve bu nedenle çok fazla karışıklığa neden olur.
naught101
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.