Zaman Serisi Tahmini için Veri Büyütme stratejileri

13

Ben zaman serisi tahmini "veri artırımı" yapmak için iki strateji düşünüyorum.

İlk olarak, biraz arka plan. Bir zaman serisinin bir sonraki adımını tahmin etmek için bir öngörücü , tipik olarak iki şeye, zaman serisi geçmiş durumlarına, fakat aynı zamanda öngörücünün geçmiş durumlarına dayanan bir işlevdir: $P$ $\lbrace A_i\rbrace$

P ({{bir}_{ben \leq t - 1}}, P_{S_{t - 1}})

$P(\lbrace A_{i\leq t-1}\rbrace,P_{S_{t-1}})$

Sistemimizi iyi bir elde etmek için ayarlamak / eğitmek istiyorsak , yeterli veriye ihtiyacımız olacak. Bazen kullanılabilir veriler yeterli olmaz, bu nedenle veri artırımı yapmayı düşünüyoruz. $P$

İlk yaklaşım

ile zaman serisine sahip olduğumuzu varsayalım . Ayrıca , aşağıdaki koşulu karşılayan olduğunu varsayalım : . $\lbrace A_i \rbrace$ $1 \leq i \leq n$ $\epsilon$ $0<\epsilon < |A_{i+1} - A_i| \forall i \in \lbrace 1, \ldots,n\rbrace$

Yeni bir zaman serisi oluşturabiliriz ; burada , dağıtımının bir gerçekleştirilmesidir . $\lbrace B_i = A_i+r_i\rbrace$ $r_i$ $N(0,\frac{\epsilon}{2})$

Daha sonra, kayıp fonksiyonunu sadece üzerinden en aza indirmek yerine, bunu üzerinden de . Bu nedenle, optimizasyon işlemi adım , öngörücüyü kez "başlatmamız" gerekir ve yaklaşık öngörücü iç durumlarını hesaplayacağız . $\lbrace A_i \rbrace$ $\lbrace B_i \rbrace$ $m$ $2m$ $2m(n-1)$

İkinci yaklaşım

Biz hesaplamak önceki gibi, ama biz kullanarak tahminci iç durumunu güncelleme yok ama . İki diziyi yalnızca kayıp fonksiyonunun hesaplanması sırasında birlikte kullanırız, bu nedenle yaklaşık öngörücü iç durumlarını hesaplayacağız . $\lbrace B_i \rbrace$ $\lbrace B_i \rbrace$ $\lbrace A_i \rbrace$ $m(n-1)$

Tabii ki, burada daha az hesaplama çalışması var (algoritma biraz daha çirkin olsa da), ancak şimdilik önemli değil.

Şüphe

Sorun şudur: istatistiksel açıdan "en iyi" seçenek hangisidir? Ve neden?

Sezgim bana birincisinin daha iyi olduğunu söylüyor çünkü iç durumla ilgili ağırlıkların "düzenli hale getirilmesine" yardımcı olurken, ikincisi sadece gözlemlenen zaman serilerinin geçmişiyle ilgili ağırlıkların düzenlenmesine yardımcı oluyor.

Ekstra:

Zaman serisi tahmini için veri artırımı yapmak için başka fikirleriniz var mı?
Eğitim setindeki sentetik veriler nasıl ağırlıklandırılır?

time-series data-augmentation

— castarco
kaynak

6

Zaman serisi tahmini için veri artırımı yapmak için başka fikirleriniz var mı?

Şu anda aynı sorunu düşünüyorum. Gazeteyi buldum "Evrişimsel sinir ağları kullanılarak Zaman Serisi Sınıflandırma için veri Büyütme" Le GUENNEC vd. ancak bu, öngörmeyi kapsamaz. Yine de orada bahsedilen büyütme yöntemleri umut vericidir. Yazarlar 2 yöntem iletişim kurar:

Pencere Dilimleme (WS)

Bilgisayarlı görme topluluğundan esinlenilen ilk yöntem [8,10] zaman serilerinden dilimlerin çıkarılması ve dilim seviyesinde sınıflandırma yapılmasıdır. Bu yöntem [6] 'daki zaman serileri için tanıtılmıştır. Eğitimde, y sınıfı bir zaman dizisinden çıkarılan her dilime aynı sınıf atanır ve dilimler kullanılarak bir sınıflandırıcı öğrenilir. Dilimin boyutu bu yöntemin bir parametresidir. Test zamanında, bir test süresi serisinden her dilim öğrenilen sınıflandırıcı kullanılarak sınıflandırılır ve tahmin edilen bir etikete karar vermek için oy çokluğu yapılır. Bu yönteme aşağıda pencere dilimleme (WS) adı verilir.

Pencere Çözgü (WW)

Kullandığımız son veri güçlendirme tekniği daha fazla zaman serisine özgüdür. Şekil 2'de gösterildiği gibi, bir zaman serisinin rasgele seçilen bir dilimini, yukarı veya aşağı hızlandırarak bükülmesinden oluşur. Orijinal dilimin boyutu, bu yöntemin bir parametresidir. Şekil 2, “ECG200” veri kümesinden ve karşılık gelen dönüştürülmüş verilerden bir zaman serisini göstermektedir. Bu yöntemin farklı uzunluklarda giriş zamanı serileri oluşturduğunu unutmayın. Bu sorunla başa çıkmak için, herkesin eşit uzunlukta olması için dönüştürülmüş zaman serilerinde pencere dilimlemesi gerçekleştiriyoruz. Bu makalede, sadece 0.5ya da eşit çözgü oranlarını düşünüyoruz 2, ancak diğer oranlar kullanılabilir ve optimal oran, eğitim setindeki çapraz doğrulama ile ince ayar yapılabilir. Aşağıda, bu yöntem pencere çözgüsü (WW) olarak anılacaktır.

Şekil 2 kağıttan

Yazarlar serinin% 90'ını değiştirmedi (yani WS% 90'lık bir dilime ayarlandı ve WW için serinin% 10'u çarpık). Yöntemlerin, görüntü anahatlarının 1B gösterimleri dışında, çeşitli (zaman) seri veri türlerinde sınıflandırma hatasını azalttığı bildirilmektedir. Yazarlar verilerini buradan aldılar: http://timeseriesclassification.com

Eğitim setindeki sentetik veriler nasıl ağırlıklandırılır?

Görüntü büyütmede, büyütmenin bir görüntünün sınıfını değiştirmesi beklenmediğinden, görüntüyü gerçek veri olarak ağırlıklandırmak yaygındır. Zaman serisi tahmini (ve hatta zaman serisi sınıflandırması) farklı olabilir :

Bir zaman serisi insanlar için bitişik bir nesne olarak kolayca algılanamaz, bu yüzden ne kadar kurcaladığınıza bağlı olarak, hala aynı sınıf mı? Sadece biraz dilimleyip çarpıtırsanız ve sınıflar görsel olarak farklıysa, bu sınıflandırma görevleri için sorun oluşturmayabilir
Tahmin etmek için şunu iddia ederim:

2.1 WS hala güzel bir yöntem. Serinin hangi% 90'ına bakarsanız bakın, yine de aynı kurallara dayalı bir tahmin bekleyebilirsiniz => tam ağırlık.

2.2 WW: Serinin sonuna ne kadar yakın olursa, o kadar dikkatli olurum. Sezgisel olarak, eğrinin en son özelliklerinin en alakalı olduğunu varsayarak, 0 (sonunda çözgü) ve 1 (başlangıçta çözgü) arasında kayan bir ağırlık faktörü bulurdum.

— ascripter
kaynak

6

Zaman serisi tahmini için veri artırımı yapmak için başka fikirleriniz var mı?

DeVries ve Taylor'ın "Özellik Alanında Veri Kümesi Büyütmesi" ne dayanan farklı bir yaklaşımla başka bir cevap .

Bu çalışmada, veri uzayını genişletmek ve denetimli öğrenme algoritmalarının performansını artırmak için özellik uzayındaki örnekler arasında ekstrapolasyonun kullanılabileceğini gösteriyoruz. Yaklaşımımızın temel yararı, alandan bağımsız olması , uzmanlık bilgisi gerektirmemesidir ve bu nedenle birçok farklı sorun türüne uygulanabilir.

Bana gelecek vaat ediyor. Prensipte , özellik alanında temsiller oluşturmak için herhangi bir otomatik kodlayıcıyı alabilirsiniz . Bu özellikler enterpole edilebilir veya ekstrapole edilebilir.

$C_j$ $C_k$ $C'$

Kağıt yine sadece dizi sınıflandırmasını kapsamaktadır. Fakat yine IMO prensipleri regresyon analizi için aynıdır. Muhtemelen gerçek verilerinizle aynı dağıtımdan yeni veriler alırsınız, istediğiniz şey budur.

AE büyütme mimarisi

Bu veri üretme prensibini bir sinir ağı tarafından daha ayrıntılı olarak ele alırsak, Generatif Düşman Ağları (GAN) ile sonuçlanırız . Muhtemelen en gelişmiş modern yöntem olacak artırılmış veri üretmek için benzer bir şekilde kullanılabilirler.

— ascripter
kaynak

4

Yakın zamanda Bergmeir, Hyndman ve Benitez'den bu makaleden esinlenen başka bir yaklaşım uyguladım .

$B$ $B$

Bu şekilde, başlangıç zaman serilerini oldukça iyi temsil eden, gerektiği kadar ek zaman serisi üretilebilir. Ek benzer zaman serileri oluşturmak için bazı gerçek verilerdeki uygulamanın bir örneği:

Burada büyütme, orijinal makalede önerildiği gibi Box Cox değil, Yeo-johnson dönüşümü kullanılarak gösterilmiştir.

— Aesir
kaynak