Ben zaman serisi tahmini "veri artırımı" yapmak için iki strateji düşünüyorum.
İlk olarak, biraz arka plan. Bir zaman serisinin bir sonraki adımını tahmin etmek için bir öngörücü , tipik olarak iki şeye, zaman serisi geçmiş durumlarına, fakat aynı zamanda öngörücünün geçmiş durumlarına dayanan bir işlevdir:
Sistemimizi iyi bir elde etmek için ayarlamak / eğitmek istiyorsak , yeterli veriye ihtiyacımız olacak. Bazen kullanılabilir veriler yeterli olmaz, bu nedenle veri artırımı yapmayı düşünüyoruz.
İlk yaklaşım
ile zaman serisine sahip olduğumuzu varsayalım . Ayrıca , aşağıdaki koşulu karşılayan olduğunu varsayalım : .
Yeni bir zaman serisi oluşturabiliriz ; burada , dağıtımının bir gerçekleştirilmesidir .
Daha sonra, kayıp fonksiyonunu sadece üzerinden en aza indirmek yerine, bunu üzerinden de . Bu nedenle, optimizasyon işlemi adım , öngörücüyü kez "başlatmamız" gerekir ve yaklaşık öngörücü iç durumlarını hesaplayacağız .
İkinci yaklaşım
Biz hesaplamak önceki gibi, ama biz kullanarak tahminci iç durumunu güncelleme yok ama . İki diziyi yalnızca kayıp fonksiyonunun hesaplanması sırasında birlikte kullanırız, bu nedenle yaklaşık öngörücü iç durumlarını hesaplayacağız .
Tabii ki, burada daha az hesaplama çalışması var (algoritma biraz daha çirkin olsa da), ancak şimdilik önemli değil.
Şüphe
Sorun şudur: istatistiksel açıdan "en iyi" seçenek hangisidir? Ve neden?
Sezgim bana birincisinin daha iyi olduğunu söylüyor çünkü iç durumla ilgili ağırlıkların "düzenli hale getirilmesine" yardımcı olurken, ikincisi sadece gözlemlenen zaman serilerinin geçmişiyle ilgili ağırlıkların düzenlenmesine yardımcı oluyor.
Ekstra:
- Zaman serisi tahmini için veri artırımı yapmak için başka fikirleriniz var mı?
- Eğitim setindeki sentetik veriler nasıl ağırlıklandırılır?