MAE'yi en aza indirmek neden ortalamaları değil medyanı tahmin etmeye neden olur?


19

Rob J Hyndman ve George Athanasopoulos tarafından hazırlanan Tahmin: İlkeler ve Uygulama ders kitabından , özellikle doğruluk ölçümü ile ilgili bölüm :

MAE'yi en aza indiren bir tahmin yöntemi, medyanın tahminlerine yol açarken, RMSE'yi en aza indirmek, ortalamanın tahminlerine yol açacaktır.

Birisi MAE'yi en aza indirmenin neden ortalama değil medyanın tahmin edilmesine yol açtığını sezgisel bir şekilde açıklayabilir mi? Ve bu pratikte ne anlama geliyor?

Bir müşteriye sordum: "Ortalama tahminleri daha doğru hale getirmeniz veya çok yanlış tahminlerden kaçınmanız için daha önemli olan nedir?". Ortalama tahminleri daha doğru hale getirmenin daha yüksek önceliğe sahip olduğunu söyledi. Bu durumda, MAE veya RMSE kullanmalı mıyım? Bu alıntıyı okumadan önce MAE'nin böyle bir durum için daha iyi olacağına inandım. Ve şimdi şüpheliyim.

Yanıtlar:


17

Bir adım geri gitmek ve bir dakika için öngörme yönünü unutmak yararlıdır. Sadece herhangi bir dağılımını ele alalım ve tek bir sayı kullanarak özetlemek istediğimizi varsayalım.F

İstatistik sınıflarınızda, beklentisini tek bir sayı özeti olarak kullanmanın beklenen kare hatasını en aza indireceğini öğreniyorsunuz .F

Şimdiki soru ise: neden kullanılarak yok medyan ait beklenen minimize mutlak hata?F

Bunun için, Hanley ve ark. Tarafından sık sık "Medyanı Minimum-Sapma Yeri Olarak Görselleştirmek" öneriyorum . (2001, Amerikan İstatistikçi ) . Maalesef modern tarayıcılarla artık çalışmayan kağıtlarıyla birlikte küçük bir uygulama kurdular , ancak gazetedeki mantığı takip edebiliriz.

Bir asansör bankasının önünde durduğunuzu varsayalım. Bunlar eşit aralıklı olarak düzenlenebilir veya asansör kapıları arasındaki bazı mesafeler diğerlerinden daha büyük olabilir (örneğin, bazı asansörler bozuk olabilir). Asansörlerden biri geldiğinde hangi asansörün en az beklenen yürüyüşe çıkması için hangi asansörün önünde durmalısınız ? Bu beklenen yürüyüşün beklenen mutlak hatanın rolünü oynadığını unutmayın!

Diyelim ki A, B ve C asansörleriniz var.

  • A'nın önünde beklerseniz, A'dan B'ye (B gelirse) veya A'dan C'ye (C gelirse) - B'yi geçmeniz gerekebilir !
  • B'nin önünde beklerseniz, B'den A'ya (A gelirse) veya B'den C'ye (C gelirse) yürümeniz gerekir.
  • C'nin önünde beklerseniz, C'den A'ya (A gelirse) - B'yi geçerek - veya C'den B'ye (B gelirse) yürümeniz gerekir .

İlk ve son bekleme konumundan, ilk gelen AB, son konumda BC - bir mesafe olduğunu ve gelen asansörlerin birden fazla durumunda yürümeniz gerektiğini unutmayın . Bu nedenle, en iyi bahis, üç asansörün nasıl düzenlendiğine bakılmaksızın orta asansörün hemen önünde durmaktır.

İşte Hanley ve arkadaşlarından Şekil 1:

Hanley ve diğerleri, Şekil 1

Bu, üçten fazla asansöre kolayca genelleme yapar. Ya da farklı gelme şansına sahip asansörlere. Ya da gerçekten sonsuz sayıda asansör. Böylece bu mantığı tüm ayrık dağılımlara uygulayabilir ve sonra sürekli dağılımlara ulaşmak için sınıra geçebiliriz.

Öngörüye geri dönmek için, gelecekteki belirli bir zaman aralığı için nokta tahmininizin altında yatan, tek bir sayı noktası tahmini kullanarak özetlediğimiz (genellikle örtülü) bir yoğunluk tahmini veya tahmini dağıtım olduğunu düşünmeniz gerekir. Senin öngörü yoğunluk medyan neden yukarıdaki argümanı gösterileri aza indirir mutlak hata veya MAE beklenen nokta tahminidir. (Daha kesin olmak gerekirse, herhangi bir medyan bunu yapabilir, çünkü benzersiz bir şekilde tanımlanamayabilir - asansör örneğinde, bu çift sayıda asansöre sahip olmak anlamına gelir .)F^

Ve elbette, asimetrik ise medyan beklentisinden oldukça farklı olabilir . Bunun önemli bir örneği düşük hacimli , özellikle . Aslında,% 50 veya daha yüksek sıfır satış şansınız varsa, örneğin, satışlar parametresiyle dağıtılmış Poisson ise , o zaman düz bir sıfır tahmin ederek beklenen mutlak hatasını en aza indirirsiniz - bu oldukça sezgisel değildir yüksek aralıklı zaman serileri için bile. Bununla ilgili küçük bir yazı yazdım ( Kolassa, 2016, Uluslararası Tahmin Dergisi ).F^λln2

Dolayısıyla, yukarıdaki iki durumda olduğu gibi, tahmini dağılımınızın asimetrik olduğundan (veya olması gerektiğinden) şüpheleniyorsanız, o zaman tarafsız beklenti tahminleri almak istiyorsanız, kullanın . Dağılımın simetrik olduğu varsayılırsa (tipik olarak yüksek hacimli seriler için), o zaman medyan ve ortalama çakışır ve kullanılması sizi tarafsız tahminlere yönlendirir - ve MAE'yi anlamak daha kolaydır.

Benzer şekilde, en aza indirilmesi simetrik dağılımlar için bile önyargılı tahminlere yol açabilir. Daha önceki bu cevabım, asimetrik olarak dağıtılmış, kesinlikle pozitif (lognormal olarak dağıtılmış) serilere sahip simüle edilmiş bir örnek içeriyor.


9

Stephan cevap size mutlak ortalama hatanın minimize edilmesinin neden medyan verdiğini sezgisel bir şekilde açıklıyor. Şimdi MSE, MAE veya MAPE'den hangisinin kullanılacağını cevaplamak için:

MAE sağlamdır , yani aykırı değerlere karşı daha az duyarlıdır. Hatalı bir diziyi, olması gerekenden milyon kez daha fazla düşünün. MSE'de tahmin, bir milyon / N kez (burada N, nokta sayısıdır) çekerken, MAE yalnızca 1 birim için çekilecektir.

Ne yazık ki, MAE benzersiz değildir , bu nedenle bir tür şizofrenik davranış sergileyebilir.

Bu yüzden benim tavsiyem önce bir MSE yapmak, daha sonra MAE regresyonunu başlatmak için MSE parametrelerini kullanmak.

Her iki durumda da her iki tahmini karşılaştırın: eğer çok farklılarsa verilerinizde kokan bir şey var.

resim açıklamasını buraya girinresim açıklamasını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.