Zaman serilerinin öngörülebilirliğini değerlendirme

11

Varsayalım ki, Ocak'05'ten Aralık'11'e kadar aylık 20.000'den fazla zaman serisi var. Bunların her biri farklı bir ürün için küresel satış verilerini temsil eder. Ya, her biri için tahminleri hesaplamak yerine, yalnızca "gerçekten önemli" olan az sayıda ürüne odaklanmak isteseydim?

Bu ürünleri toplam yıllık gelire göre sıralayabilir ve klasik Pareto kullanarak listeyi kesebilirim. Yine de bana öyle geliyor ki, sonuçta çok fazla katkıda bulunmasalar da, bazı ürünlerin onları dışarıda bırakmanın kötü yargı olacağını tahmin etmek çok kolay. Geçtiğimiz 10 yıl boyunca her ay 50 $ değerinde ürün satan bir ürün kulağa pek hoş gelmeyebilir, ancak gelecekteki satışlarla ilgili tahminlerde bulunmak için yapabileceğim kadar az çaba gerektirir.

Diyelim ki ürünlerimi dört kategoriye ayırıyorum: yüksek gelir / tahmin edilmesi kolay - düşük gelir / tahmin edilmesi kolay - yüksek gelir / tahmin edilmesi zor - düşük gelir / tahmin edilmesi zor.

Sadece dördüncü gruba ait zaman serilerini geride bırakmanın makul olacağını düşünüyorum. Ancak "öngörülebilirliği" tam olarak nasıl değerlendirebilirim?

Varyasyon katsayısı iyi bir başlangıç noktası gibi görünüyor (bir süre önce bu konuda bazı kağıtlar gördüğümü de hatırlıyorum). Peki, zaman serilerim mevsimsellik / seviye değişimleri / takvim efektleri / güçlü eğilimler sergiliyorsa ne olacak?

Değerlendirmemi, "ham" verilerden değil, yalnızca rastgele bileşenin değişkenliğine dayandırmayı düşünmeliyim. Yoksa bir şey mi kaçırıyorum?

Daha önce benzer bir sorunla karşılaşan var mı? Siz nasıl başaracaksınız?

Her zaman olduğu gibi, herhangi bir yardım büyük beğeni topluyor!

time-series forecasting forecastability

— Bruder
kaynak

9

İşte stl'ye dayanan ikinci bir fikir.

Her seriye bir stl ayrışması sığdırabilir ve daha sonra, kalan bileşenin standart hatasını, herhangi bir kısmi yılı yok sayan orijinal verilerin ortalamasıyla karşılaştırabilirsiniz. Tahmin edilmesi kolay serilerin se (geri kalan) ile ortalama (veri) arasında küçük bir oranı olmalıdır.

Kısmi yılları görmezden gelmemin sebebi mevsimsellik, verilerin ortalamasını etkileyecektir. Sorudaki örnekte, tüm serilerin yedi tam yılı vardır, bu yüzden bir sorun değildir. Ancak, seri 2012'ye kısmen uzanırsa, ortalamanın mevsimsel kontaminasyonunu önlemek için ortalamanın sadece 2011 sonuna kadar hesaplandığını öneririm.

Bu fikir, ortalama (veri) mantıklı olduğunu varsayar - yani veriler sabittir (mevsimsellik dışında). Muhtemelen güçlü eğilimleri veya birim kökleri olan veriler için iyi çalışmaz.

Ayrıca iyi bir stl uyumunun iyi tahminlere dönüştüğünü varsayar, ancak bunun doğru olmayacağı bir örnek düşünemiyorum, bu yüzden muhtemelen iyi bir varsayımdır.

— Rob Hyndman
kaynak

Merhaba Rob, bana geri döndüğün için teşekkürler. Fikrinizi seviyorum, bu yüzden bir deneyeceğim ve istenen filtreleme seviyesini sağlayıp sağlamadığını göreceğim. Sadece bir şey daha, ortalama (veri) ortalamanın (kalan) üzerinde kullanılması için belirli bir neden var mı? Korkarım zaman serilerimin bir kısmı güçlü bir eğilime sahip olabilir. Bunun yerine STL ayrıştırılmış seriler olmamalıdır. Ayrıca, öngörülebilirlik / aykırı değerlerin değerlendirilmesi için şimdiye kadar özetlediğimiz yaklaşımın gerçek bir iş ortamında uygulanacak kadar iyi olduğunu düşünüyor musunuz? Yoksa çok "amatör" mü? Normalde çok farklı şeyler yapar mıydınız?

— Bruder

ortalama (kalan) sıfıra yakın olacaktır. Gürültüyü verilerin ölçeğiyle karşılaştırmak istiyorsunuz, bu nedenle ortalama (veri) iyi olmalıdır. Trendlerinizle nasıl başa çıkacağınızdan emin değilim. Sonuçlara inanmadan önce yaklaşımı bir dizi veri üzerinde dikkatle test ederim.

— Rob Hyndman

8

Bu, öngörmede oldukça yaygın bir sorundur. Geleneksel çözüm, her bir öğedeki ortalama mutlak yüzde hatalarını (MAPE'ler) hesaplamaktır. MAPE ne kadar düşük olursa, öğe o kadar kolay tahmin edilir.

Bununla ilgili bir sorun, birçok serinin sıfır değer içermesidir ve MAPE tanımsızdır.

$y_t$ $t$ $T$

Q = \frac{1}{T - 12} \sum_{t = 13}^{T} | y_{t} - y_{t - 12} |,

$Q = \frac{1}{T-12}\sum_{t=13}^T |y_t-y_{t-12}|,$

q_{t} = (y_{t} - {\hat{y}}_{t}) / Q

$q_t = (y_t-\hat{y}_t)/Q$

{\hat{y}}_{t}

$\hat{y}_t$

y_{t}

$y_t$

h

$h$

Tahmin edilmesi kolay serilerin MASE değerleri düşük olmalıdır. Burada "tahmin edilmesi kolay" mevsimsel saf tahminlere göre yorumlanmaktadır. Bazı durumlarda, sonuçları ölçeklendirmek için alternatif bir temel önlem kullanmak daha mantıklı olabilir.

— Rob Hyndman
kaynak

Merhaba Rob, nazik cevabınız için teşekkür ederim. Her zaman olduğu gibi yaklaşımınız çok düzgün, anlaşılır ve makul. Öngörülen katma değeri ( FTV ) mevsimsel saf bir modele göre zaten değerlendiriyorum, böylece aynı "temel önlemi" kullanarak öngörülebilirliği değerlendirme fikriniz çok çekici geliyor. Tek sorun, MASE'i hesaplamak için bir tahmin yöntemi seçmem ve 20000 zaman serimin her biri için simülasyonları çalıştırmam gerekiyor. Hesaplama zamanından tasarruf edebilmem için önceden tahmin edilmesi kolay seriyi bulabileceğimi umuyordum.

— Bruder

Bazı nedenlerden dolayı, daha düşük göreceli değişkenliğe (yani CV) sahip zaman serilerinin daha kolay ve daha doğru tahminlerle sonuçlanacağını düşündüm. Tahminleri hesaplamak ve sonra, ancak sonra hataları, tür meydan okumaları ölçmek, bence, benim amacım. Söylemeye çalıştığım şey, MASE'e tahmin edilebilirlik ölçüsünden ziyade tahmin doğruluğu ölçüsü gibi bakıyorum. Ama yanılıyor olabilirim ... :)

— Bruder

1

@Bruder: 2 düşünce: 1. Mevsimsel bir tahmin yerine basit bir saf tahminine bakabilirsiniz. Basit bir saf tahmin, zaman serisinin önceki değerini kullanır ve güçlü bir eğilim alır (1 dönem gecikme ile). 2. STL ayrışması iyi bir fikirdir. Kalıntılar mevsimsel ve trend bileşenlerine kıyasla çok küçükse, muhtemelen seriyi kolayca tahmin edebilirsiniz.

— Zach

1

@Rob - STL ayrışmasına ne dersiniz? Bir taşla iki kuş alabilir miyim (yani aykırı değerleri tespit etmek ve öngörülebilirliği değerlendirmek, dolayısıyla "gerçek" öngörülebilirliği değerlendirmek)? Sadece STL ve mevsimsel saf bir model ile kaç şeyi başarabileceğim beni şaşırtıyor. Ama işler gerçek olamayacak kadar iyi olduğunda ne olduğunu biliyorsun ...

— Bruder

1

t

$t$

i

$i$

5

$p \gg n$

$\Omega(x_t)$

Ancak belki birkaç alt grupta 20.000'den kaba bir ızgara ayrımı yapmak için Rob tarafından önerilen MASE ölçüsünü kullanmaya ve sonra her birine ayrı ayrı ForeCA uygulamaya çalışabilirsiniz.

— Georg M. Goerg
kaynak

0

Bu cevap çok geç, ancak hala ürün talep süresi serileri için uygun bir öngörülebilirlik ölçüsü arayanlar için, yaklaşık entropiye bakmanızı şiddetle tavsiye ediyorum .

Bir zaman serisinde tekrarlanan dalgalanma paternlerinin varlığı, onu bu paternlerin olmadığı bir zaman serisinden daha öngörülebilir kılar. ApEn benzer gözlem modellerini takip eden ek benzer gözlemler izlememe olasılığını yansıtmaktadır. [7] Birçok tekrarlayan model içeren bir zaman serisinde nispeten küçük bir ApEn bulunur; daha az tahmin edilebilir bir süreç daha yüksek bir ApEn değerine sahiptir.

Ürün talebi çok güçlü bir mevsimsel bileşene sahip olma eğilimindedir ve varyasyon katsayısını (CV) uygunsuz hale getirir. ApEn (m, r) bunu doğru bir şekilde yapabilir. Benim durumumda, verilerim haftalık güçlü bir mevsimsellik eğilimi gösterdiğinden, burada önerildiği gibi m = 7 ve r = 0.2 * std parametrelerini ayarladım .

— meraxes
kaynak

u^{*}

$u^*$

u

$u$

u^{*}

$u^*$