tahmin edilebilirlik
Haklısın, bunun bir öngörü sorunudur. Olmuştur tahmin edilebilirlik üzerinde birkaç makale de IIF uygulayıcı odaklı dergi Öngörü . (Tam açıklama: Ben Yardımcı Editör'üm.)
Sorun şu ki, tahmin edilebilecek durumun "basit" durumlarda değerlendirilmesinin çok zor olması.
Birkaç örnek
Diyelim ki böyle bir zaman seriniz var ama Almanca konuşmuyorsunuz:
Nisan'daki büyük zirveyi nasıl modelleyecektiniz ve bu bilgileri herhangi bir tahminde nasıl dahil edersiniz?
Bu zaman serisinin, Paskalya takviminin hemen batısından önce yükselen bir İsviçre süpermarket zincirindeki yumurtaların satışları olduğunu bilmediğiniz sürece , hiçbir şansınız olmazdı. Ayrıca, Paskalya takvimde altı haftaya kadar dolaşırken, belirli Paskalya tarihini içermeyen tahminler (bunun önümüzdeki yıl belirli bir haftada tekrarlanacak mevsimsel bir zirve olduğunu varsayarak) Muhtemelen çok kapalı olurdu.
Benzer şekilde, aşağıdaki mavi çizgiye sahip olduğunuzu ve 2010-02-28'deki "normal" modellerden farklı olarak 2010-02-28'de olanları modellemek istediğinizi varsayalım:
Yine, Kanadalılar dolu bir şehir televizyonda bir Olimpiyat buz hokeyi finali maçı izlerken ne olacağını bilmeden, burada ne olduğunu anlama şansınız yok ve bunun gibi bir şeyin ne zaman tekrarlanacağını tahmin edemezsiniz.
Son olarak şuna bir bakın:
Bu bir nakit ve taşıma mağazasında günlük satışların bir zaman serisidir . (Sağda basit bir tablonuz var: 282 gün sıfır satış, 42 gün 1 satış ... bir gün 500 satış görmüştü.) Hangi ürünün olduğunu bilmiyorum.
Bu gün, o 500 günde bir satışla o gün ne oldu bilmiyorum. En iyi tahminim, bazı müşterilerin bu ürünü ne şekilde topladığını çok fazla sipariş etmeleriydi. Şimdi, bunu bilmeden, bu belirli gün için herhangi bir tahmin çok uzak olacak. Bunun tersine, bunun Paskalya'dan hemen önce olduğunu ve bunun bir Paskalya etkisi olabileceğine inanan bir aptal-akıllı algoritmaya sahip olduğumuzu ve belki de bir sonraki Paskalya için 500 ünite öngördüğünü varsayalım. Oh, bu yanlış gidebilir mi?
özet
Her durumda, tahmin edilebilirliğin ancak verilerimizi etkileyen muhtemel faktörleri yeterince derin bir şekilde anladıktan sonra nasıl anlaşılabileceğini görüyoruz. Sorun şu ki, bu faktörleri bilmiyorsak, onları tanımayacağımızı bilmiyoruz. Gereğince Donald Rumsfeld :
[T] burada bilinen bilenler; bildiğimiz bildiğimiz şeyler var. Ayrıca bilinen bilinmeyenler olduğunu biliyoruz; yani bilmediğimiz bazı şeyler olduğunu biliyoruz. Ama bilinmeyen bilinmeyenler de var - bilmediklerimiz bilmediğimizi.
Paskalya ya da Kanadalıların Hokey için hazırlığı bizim için bilinmeyen bir şey değilse, biz sıkışıp kaldık - ileriye bile bir yolumuz yok, çünkü hangi soruları sormamız gerektiğini bilmiyoruz.
Bunlarla ilgilenmenin tek yolu alan bilgisini toplamak.
Sonuçlar
Bundan üç sonuç çıkardım:
- Sen hep senin modelleme ve tahmin etki alanı bilgisinin dahil edilmesi gerekir.
- Etki alanı bilgisiyle bile, tahmin ve öngörüleriniz için kullanıcı tarafından kabul edilebilecek kadar bilgi almanız garanti edilmez. Yukarıdaki aykırı görün.
- "Sonuçlarınız perişan" ise, başarabileceğinizden daha fazlasını ümit ediyor olabilirsiniz. Adil para atmayı tahmin ediyorsanız,% 50 doğruluğun üzerinde bir yol yoktur. Dış tahminde doğruluk ölçütlerine de güvenmeyin.
Alt çizgi
Modeller oluşturmayı nasıl önereceğim - ve ne zaman duracağına dikkat ederek:
- Zaten kendiniz yoksa, etki alanı bilgisine sahip birisiyle konuşun.
- Tahmin etmek istediğiniz verinin ana sürücülerini, olası etkileşimler dahil, 1. adıma göre belirleyin.
- Modelleri adım 2'ye göre azalan güç sırasına göre sürücüler dahil olmak üzere yinelemeli olarak oluşturun.
- Tahmin doğruluğunuz daha da artmazsa, ya 1. adıma geri dönün (örneğin, açıklayamayacağınız kesin yanlış tahminleri belirleyerek ve bunları etki alanı uzmanıyla tartışarak) ya da hedefinize ulaştığınızı kabul edin modellerin yetenekleri. Analizlerinizi önceden boks yapmak yardımcı olur.
Orijinal model platolarınız varsa, farklı model sınıflarını denemeyi savunmadığımı unutmayın. Tipik olarak, makul bir modelle başlarsanız, daha sofistike bir şey kullanmak güçlü bir fayda sağlamaz ve "test setine fazladan uyuyor" olabilir. Bunu çok sık gördüm ve diğer insanlar aynı fikirdeler .