LOESS zaman serisi modeli için artımlı öğrenme


9

Şu anda bazı zaman serisi verileri üzerinde çalışıyorum, LOESS / ARIMA modelini kullanabileceğimi biliyorum.

Veriler, uzunluğu 1000 olan, sıra olan ve her 15 dakikada bir güncellenen bir vektöre yazılır,

Böylece, yeni veriler vektörü içeri aktarırken eski veriler ortaya çıkar.

Tüm modeli bir zamanlayıcıda tekrar çalıştırabilirim, örneğin modeli her 15 dakikada bir yeniden eğitin, yani, LOESS modelini eğitmek için 1000 değerinin tamamını kullanın, Ancak, her seferinde 999 vlaues varken sadece bir değer eklendiğinde çok verimsiz hala son kez aynı.

Peki nasıl daha iyi performans elde edebilirim?

Çok teşekkürler


3
"LOESS / ARIMA modeli" nedir? ARESS hataları ile doğrusal olmayan zaman eğilimi LOESS kullanılarak tahmin edildiğinde doğrusal olmayan bir zaman eğilimi mi demek istediniz?
Rob Hyndman

üzgünüm LOESS veya ARIMA modelini kastediyorum. örneğin kalıntıları bulmak için LOESS kullanıyorum: artıklar (loess (x ~ zaman)). çünkü x verisi her 15 dakikada bir güncellenen 1000 değere sahip vektördür. Kalanları nasıl verimli bir şekilde alabilirim, ancak tüm veri kümesini her zaman girdi olarak yeniden çalıştıramazım? her seferinde sadece 1 değer güncellemesi olduğu için, diğer 999 değerleri hala son kez aynıdır.
Zhang

olası bir yöntem, belki sonraki 1000 değerleri tahmin etmek için ilk 1000 değerleri kullanın (ancak LOESS sadece 4 değeri öngörmeyi desteklese de), daha sonra kalıntıyı gerçek değer ve karşılık gelen tahmin değeri arasındaki fark olarak hesaplayın. Bu istediğim orijinal LOESS modeli değil :-(
zhang

Yanıtlar:


1

Bunu daha tanıdık bir şeye yeniden formüle edeyim. ARIMA, PID yaklaşımına bir analogdur. Ben ayrılmaz. MA P'dir. AR, D terimi olan fark denklemleri olarak ifade edilebilir. LOESS en küçük karelere uyan bir analogdur (gerçekten yüksek teknoloji ağabey).

İkinci bir model (PID) geliştirmek istersem ne yapılabilir?

  • İlk olarak, modeli bir parça yeni bilgi ile güncellemek için bir Kalman Filtresi kullanabilirim.
  • Ayrıca "gradyanla güçlendirilmiş ağaçlar" adı verilen bir şeye bakabilirim. Bunların bir analoğunu kullanarak, her ikisi de birincisine beslenen ham girdiler olan, birincisinin hatalarıyla zenginleştirilmiş ikinci bir ARIMA modeli yapardım.
  • Birden çok mod için hataların PDF'sine bakmayı düşünürdüm. Hataları kümeleyebilirsem modelleri bölmek veya girişleri alt modellere ayırmak için bir Mixture modeli kullanmak isteyebilirsiniz. Alt modeller, yerel fenomenolojiyi tek bir büyük ölçekli modelden daha iyi ele almakta daha iyi olabilir.

Sormayı başaramadığım sorulardan biri "performans ne anlama geliyor?" Açıkça belirtilmiş bir iyilik ölçütümüz yoksa, aday bir yöntemin "düzelip düzelmediğini" anlamanın bir yolu yoktur. Daha iyi modelleme, daha kısa hesaplama süresi ve daha verimli bilgi kullanımı istiyorsunuz gibi görünüyor. Gerçek veriler hakkında efemeris olması da bunu bildirebilir. Rüzgarı modelliyorsanız, modelleri nerede artıracağınızı veya verileriniz için yararlı olan dönüşümleri nerede bulacağınızı öğrenebilirsiniz.


1

Lös ya da ARIMA modeli kullanıp kullanmadığınıza bağlı olarak bu farklı bir sorudur. Şimdilik sadece yanıltıcı soruya cevap vereceğim, çünkü ARIMA davasında belki de iyi bir başlangıç ​​değerlerine sahip olmaktan başka çok az verimlilik olduğundan şüpheleniyorum.

Bir yetersiz model, verilerin farklı alt kümelerine ağırlıklı bir regresyon takarak çalışır. Her uyum için verilerin yalnızca bir kısmı kullanılır. Bu nedenle, bir uçta bir veri noktasını bırakıp diğer uca başka bir veri noktası ekledikten sonra modeli yeniden taktığınızda, teknik olarak yalnızca ilk ve son noktayı kullanan yerel regresyonlara uymanız gerekir. Aradaki tüm yerel regresyonlar aynı olacaktır. Etkilenmemiş bu yerel regresyonlardan kaç tanesi var olan yumuşatma parametrenize bağlı olacaktır.

Modelinize sığdırmak için hangi paketi kullanırsanız kullanın, böylece yerel regresyonların çoğunu önceki bir uyumdan alabilir ve yalnızca verilerin başında ve sonunda gerekli olanlara uyabilir.

Ancak, bana göre, bu sadece ekstra programlama süresindeki maliyet, her 15 dakikada bir modeli sıfırdan takmanın bilgisayar zamanındaki maliyetten maddi olarak daha az olsaydı yapmaya değerdi. Sadece 1000 veri noktası ile, modeli her seferinde sıfırdan sığacak kadar büyük bir şey değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.