Ortalama mutlak ölçekli hatanın yorumlanması (MASE)


22

Ortalama mutlak ölçekli hata (MASE), Koehler ve Hyndman (2006) tarafından önerilen tahmin doğruluğunun bir ölçüsüdür .

MASE=MAEMAEinsample,naive

burada gerçek durumunu ürettiği ortalama mutlak hatadır; ise MAE_ {in örnek, \, naif} (bir örneğin herhangi bir değiştirme durumu entegre saf bir tahmini ürettiği ortalama mutlak hata I (1) zaman serileri), içinde örnek veri hesaplanan.M bir E i , n - s bir m p l , e ,MAE
I(1)MAEinsample,naiveI(1)

( Kesin bir tanım ve formül için Koehler & Hyndman (2006) makalesine bakın.)

MASE>1 , asıl tahminin, ortalama mutlak hata anlamında, numunedeki naif bir tahminden daha kötü olduğunu gösterir. Bu nedenle, ortalama mutlak hata ilgili tahmin doğruluğunun ölçüsü ise (eldeki soruna bağlıdır), MASE>1 , örnek-dışı verilerin beklemesini beklediğimiz takdirde , saf tahminin bir naif tahmin lehine atılması gerektiğini önermektedir . numune içindeki verilere benzemeye çalışın (çünkü sadece numunede saf olmayan bir tahminin ne kadar iyi yapıldığını biliyoruz).

Soru:

MASE=1.38 , bu Hyndsight blog yazısında önerilen bir tahmin yarışmasında bir ölçüt olarak kullanıldı . Belirgin bir kriter MASE = 1 olması gerekmiyor MASE=1mu?

Tabii ki, bu soru belirli tahmin rekabetine özgü değildir. Bunu daha genel bir bağlamda anlama konusunda biraz yardım istiyorum.

Tahminimce:

Gördüğüm tek mantıklı açıklama, saf bir tahminin, örneğin yapısal bir değişiklik nedeniyle, örnekte olduğundan çok daha kötü bir örneklem yapmasının beklendiğidir. O zaman MASE<1 elde etmek için çok zor olabilirdi.

Referanslar:


Rob, blog yazısında, bu kriterin nereden geldiğine dikkat çekiyor: "Bu eşikler, Athanasopoulos ve diğerlerinde (2010) açıklanan bu verilerin analizinde en iyi performans gösteren yöntemlerdir." Athanosopoulos gazetesine baktın mı?
S. Kolassa - Monica

Biraz "tahmininiz" tarafından şaşırdım: yapısal bir değişiklik, karmaşık tahminin, kısmen alakasız geçmiş verilere dayanacağı anlamına gelir. Ancak yapısal bir kırılmanın “değişmeyen” bir öngörüyü nasıl etkileyeceği, kırılmaya bağlıdır. Örneğin, sürüklenmeyle rastgele bir yürüyüşe bakıyorsak ve yapısal kırılma, sürüklenmenin, sabit terimin daha yeni azaldığı anlamına gelirse, "değişmeyen" tahmin , aradan sonra olduğundan daha iyi performans gösterecektir.
Alecos Papadopoulos

@AlecosPapadopoulos: haklısın. Bununla birlikte, örnek dışı verilerin, örnek içi verilerden gerekenden oldukça farklı olması, ancak beklemek için yeterli bir koşul olmadığı anlamına geliyordu . Belki de kendimi doğru ifade etmedim. MASE>>1
Richard Hardy

@StephanKolassa: Gazeteye göz gezdirdim ve iyi bir açıklama bulamadım. Belki de daha dikkatli okumalıyım. Ancak benim sorularım bundan daha genel olması amaçlanıyor. Bu örnekle özellikle ilgilenmiyorum, sadece bir örnek olarak sundum. hakkında sezgi arıyorum . MASE
Richard Hardy

Yanıtlar:


15

In bağlantılı blog post Rob Hyndman bir turizm tahmin rekabete girişler için çağırır. Temel olarak, blog yazısı , ungated versiyonu blog yazısı ile bağlantılı olan ilgili IJF makalesine dikkat çekmeye hizmet eder .

Bahsettiğiniz karşılaştırmalar - ayda 1.38, üç ayda bir 1.43 ve yıllık veriler için 2.28 - görünüşe göre aşağıdaki gibi ulaşıldı. Yazarlar (hepsi uzman tahmincilerdir ve IIF'de çok aktiftir - burada yılan yağı satıcısı yoktur), standart tahmin algoritmaları veya tahmin yazılımı uygulama konusunda oldukça yeteneklidirler ve muhtemelen basit ARIMA sunumu ile ilgilenmiyorlar. Bu yüzden gittiler ve verilerine bazı standart yöntemler uyguladılar. Kazanan sunumun IJF'deki bir bildiriye davet edilmesi için , MASE tarafından ölçüldüğü gibi, bu standart yöntemlerin en iyi şekilde geliştirilmesini isterler.

Bu yüzden sorunuz temelde aşağıdan kaynaklanıyor:

1'lik bir MASE'in, numune içindeki naif rastgele yürüyüş tahmini gibi iyi (örnek dışı) (MAD tarafından) olan bir tahminine tekabül ettiği göz önüne alındığında, ARIMA gibi standart tahmin yöntemleri neden aylık verilerde 1.38'i geliştiremiyor?

Burada 1.38 MASE, ungated versiyonunda Tablo 4'ten gelmektedir. ARIMA'nın öngördüğü tahminlerde 1-24 ayın üzerindeki ortalama ASE. ForecastPro, ETS gibi diğer standart yöntemler daha da kötü performans gösteriyor.

Ve burada, cevap zorlaşıyor . Verileri dikkate almadan tahmin doğruluğunu yargılamak her zaman çok problemlidir. Bu özel durumda düşünebildiğim bir olasılık eğilimleri hızlandırmak olabilir. Tahmin etmeyi denediğinizi varsayalımexp(t)Standart yöntemlerle. Bunların hiçbiri hızlanma eğilimini yakalayamaz (ve bu genellikle iyi bir şeydir - öngörme algoritmanız genellikle hızlanan bir trend oluşturuyorsa, muhtemelen markanızın üstüne çıkacaksınız) ve 1'in üzerinde bir MASE üreteceklerdir. Dediğiniz gibi, nedensel olmayan kıyaslama modelleri tarafından yakalanmayacak, ancak özel turizm tahmin yöntemleriyle modellenebilecek olan, SARS veya 9/11 gibi seviye değişimleri veya dış etkiler gibi farklı yapısal molalar olabilir ( bir holdout örneğinde gelecekteki sebepler bir tür hiledir).

Bu yüzden verilere bakarken muhtemelen bu konuda çok fazla şey söyleyemeyeceğinizi söyleyebilirim. Kaggle'da kullanılabilirler. En iyi bahsinizin bu 518 serisi ele alması, son 24 ay boyunca kullanması, ARIMA serisine uyması, MASE'leri hesaplaması, on veya yirmi yıllık MASE en kötü tahmin serisini kazması, büyük bir pot alması, bu serilere bakması ve denemesi Bunun ne olduğunu anlamak için ARIMA modellerini tahmin etmede bu kadar kötü yapan şey.

EDIT: bu durumdan sonra açık görünen bir başka nokta, görmem için beş günümü aldı - MASE ' in paydasının, örneklemdeki rastgele yürüme tahmininde bir adım önde olduğunu , oysa pay sayıcının 1-24 Öngörüleri adım adım . Tahminlerin artan ufuklarla kötüleşmesi şaşırtıcı değildir, bu nedenle 1.38'lik bir MASE'in başka bir nedeni olabilir. Mevsimsel Naive tahmininin de kıyaslamaya dahil olduğunu ve daha da yüksek bir MASE olduğunu unutmayın.


Mükemmel cevap! Özgün makalenin kısa özeti için teşekkür ederiz (başlatılmamış olanların tümü için yardımcı bir kısayol görevi görecektir). Cevabınızın ardındaki ana fikir benim tahminime aykırı değil (daha doğrusu); Numune dışı naif tahmin hatasının hafife aldığına dair özel bir örnek var.
Richard Hardy

2

Cevap değil, Stephan Kolassa'nın "bu seriye bakma" çağrısını izleyen bir komplo.
Kaggle turizm1 - 518 yıllık zaman serisine sahip, bunun için son 4 değeri tahmin etmek istiyoruz:

görüntü tanımını buraya girin

Çizim, "naif" sabit yordayıcının hatalarını gösterir, burada son: Köşelerdeki sayılar, 81 12 ..., aralığın% 'si olarak ve . 3 sıra, en kötü 10, ortadaki 10 ve 518 yıllık zaman serilerinin 10 en iyisidir.5th
Error4(y)14last 4|yiy5|
Error4(y)length(y)

Açıkçası, çok kısa bir seri - 12 11 7 7 7 ... en üst sırada - tahmin etmesi zor: sürpriz yok.
(Athanasopoulos, Hyndman, Song ve Wu, Turizm Tahmini Yarışması (2011, 23p) 518 yıllık serinin 112'sini kullandı, ama hangisini göremiyorum.)

2010'dan bu yana bakmaya değer başka yeni dizi koleksiyonları var mı?


Teşekkürler! Son sorunun cevabını bilmiyorum.
Richard Hardy

1
@ denis: sadece sorunuzu gördüm - OpenData.SE'den veri isteyebilirsiniz .
S. Kolassa - Monica'yı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.