Bir adım geri gitmek ve bir dakika için öngörme yönünü unutmak yararlıdır. Sadece herhangi bir dağılımını ele alalım ve tek bir sayı kullanarak özetlemek istediğimizi varsayalım.F
İstatistik sınıflarınızda, beklentisini tek bir sayı özeti olarak kullanmanın beklenen kare hatasını en aza indireceğini öğreniyorsunuz .F
Şimdiki soru ise: neden kullanılarak yok medyan ait beklenen minimize mutlak hata?F
Bunun için, Hanley ve ark. Tarafından sık sık "Medyanı Minimum-Sapma Yeri Olarak Görselleştirmek" öneriyorum . (2001, Amerikan İstatistikçi ) . Maalesef modern tarayıcılarla artık çalışmayan kağıtlarıyla birlikte küçük bir uygulama kurdular , ancak gazetedeki mantığı takip edebiliriz.
Bir asansör bankasının önünde durduğunuzu varsayalım. Bunlar eşit aralıklı olarak düzenlenebilir veya asansör kapıları arasındaki bazı mesafeler diğerlerinden daha büyük olabilir (örneğin, bazı asansörler bozuk olabilir). Asansörlerden biri geldiğinde hangi asansörün en az beklenen yürüyüşe çıkması için hangi asansörün önünde durmalısınız ? Bu beklenen yürüyüşün beklenen mutlak hatanın rolünü oynadığını unutmayın!
Diyelim ki A, B ve C asansörleriniz var.
- A'nın önünde beklerseniz, A'dan B'ye (B gelirse) veya A'dan C'ye (C gelirse) - B'yi geçmeniz gerekebilir !
- B'nin önünde beklerseniz, B'den A'ya (A gelirse) veya B'den C'ye (C gelirse) yürümeniz gerekir.
- C'nin önünde beklerseniz, C'den A'ya (A gelirse) - B'yi geçerek - veya C'den B'ye (B gelirse) yürümeniz gerekir .
İlk ve son bekleme konumundan, ilk gelen AB, son konumda BC - bir mesafe olduğunu ve gelen asansörlerin birden fazla durumunda yürümeniz gerektiğini unutmayın . Bu nedenle, en iyi bahis, üç asansörün nasıl düzenlendiğine bakılmaksızın orta asansörün hemen önünde durmaktır.
İşte Hanley ve arkadaşlarından Şekil 1:
Bu, üçten fazla asansöre kolayca genelleme yapar. Ya da farklı gelme şansına sahip asansörlere. Ya da gerçekten sonsuz sayıda asansör. Böylece bu mantığı tüm ayrık dağılımlara uygulayabilir ve sonra sürekli dağılımlara ulaşmak için sınıra geçebiliriz.
Öngörüye geri dönmek için, gelecekteki belirli bir zaman aralığı için nokta tahmininizin altında yatan, tek bir sayı noktası tahmini kullanarak özetlediğimiz (genellikle örtülü) bir yoğunluk tahmini veya tahmini dağıtım olduğunu düşünmeniz gerekir. Senin öngörü yoğunluk medyan neden yukarıdaki argümanı gösterileri aza indirir mutlak hata veya MAE beklenen nokta tahminidir. (Daha kesin olmak gerekirse, herhangi bir medyan bunu yapabilir, çünkü benzersiz bir şekilde tanımlanamayabilir - asansör örneğinde, bu çift sayıda asansöre sahip olmak anlamına gelir .)F^
Ve elbette, asimetrik ise medyan beklentisinden oldukça farklı olabilir . Bunun önemli bir örneği düşük hacimli sayım verileri , özellikle aralıklı zaman serileri ile ilgilidir . Aslında,% 50 veya daha yüksek sıfır satış şansınız varsa, örneğin, satışlar parametresiyle dağıtılmış Poisson ise , o zaman düz bir sıfır tahmin ederek beklenen mutlak hatasını en aza indirirsiniz - bu oldukça sezgisel değildir yüksek aralıklı zaman serileri için bile. Bununla ilgili küçük bir yazı yazdım ( Kolassa, 2016, Uluslararası Tahmin Dergisi ).F^λ ≤ ln2
Dolayısıyla, yukarıdaki iki durumda olduğu gibi, tahmini dağılımınızın asimetrik olduğundan (veya olması gerektiğinden) şüpheleniyorsanız, o zaman tarafsız beklenti tahminleri almak istiyorsanız, rmse'yi kullanın . Dağılımın simetrik olduğu varsayılırsa (tipik olarak yüksek hacimli seriler için), o zaman medyan ve ortalama çakışır ve mae'nin kullanılması sizi tarafsız tahminlere yönlendirir - ve MAE'yi anlamak daha kolaydır.
Benzer şekilde, haritanın en aza indirilmesi simetrik dağılımlar için bile önyargılı tahminlere yol açabilir. Daha önceki bu cevabım, asimetrik olarak dağıtılmış, kesinlikle pozitif (lognormal olarak dağıtılmış) serilere sahip simüle edilmiş bir örnek içeriyor.