Makine öğrenimi için zaman serilerinin sıralanması


14

RJ Hyndman'ın çapraz doğrulama ve zaman serileri hakkındaki "Araştırma ipuçlarından" birini okuduktan sonra , burada formüle etmeye çalışacağım eski bir soruya geri döndüm. Fikir, sınıflandırma veya regresyon problemlerinde, verilerin sıralanmasının önemli olmadığı ve bu nedenle k -katlı çapraz validasyonun kullanılabileceğidir. Öte yandan, zaman serilerinde verilerin sıralanması büyük önem taşımaktadır.

Tahmini süresi serisine bir makine öğrenme modeli kullanılarak Ancak, ortak bir strateji serisi yeniden şekillendirmek olduğunu bir zaman için, "giriş-çıkış vektörler" bir dizi haline var formu .{y1,...,yT}t(yt-n+1,...,yt-1,yt;yt+1)

Şimdi, bu yeniden şekillendirme yapıldıktan sonra, ortaya çıkan "girdi-çıktı vektörleri" setinin sipariş edilmesine gerek olmadığını düşünebilir miyiz? Örneğin, bu verileri "öğrenmek" için n girişli bir ileri beslemeli sinir ağı kullanırsak, vektörleri modele hangi sırayla gösterirsek gösterelim aynı sonuçlara ulaşırız. Ve bu nedenle, modeli her seferinde yeniden takmaya gerek kalmadan standart yolla k-kat çapraz doğrulamayı kullanabilir miyiz?

Yanıtlar:


2

Bu sorunun cevabı, model siparişiniz doğru bir şekilde belirtildiği sürece, modelinizin hataları bağımsız olacağı sürece bunun iyi çalışacağıdır.

Bu makale burada bir modeli varsa yoksul çapraz doğrulama aslında ne kadar zayıf hafife olacağını gösterir. Diğer tüm durumlarda çapraz doğrulama iyi bir iş, özellikle de zaman serisi bağlamında kullanılan örnek dışı değerlendirmeden daha iyi bir iş çıkarır.


6

İlginç soru!

Açıkladığınız yaklaşım, zaman serisi verilerini analiz etmek için sabit uzunluklu özellik vektörleri gerektiren standart ML yöntemlerini kullanan kişiler tarafından kesinlikle çok yaygın olarak kullanılmaktadır.

Bağlantı verdiğiniz gönderide Hyndman, yeniden şekillendirilen veri vektörleri (örnekler) arasında korelasyonlar olduğunu belirtir. Bu, k-CV (veya verileri rastgele eğitim ve test setlerine bölen diğer değerlendirme yöntemleri) tüm numunelerin bağımsız olduğunu varsaydığı için sorunlu olabilir. Ancak, bu kaygının, özellikleri ayrı ayrı ele alan standart bir ML yöntemi için geçerli olduğunu düşünmüyorum.

n=3

bir:(y1,y2,y3;y4)B:(y2,y3,y4;y5)C:(y3,y4,y5;y6)

y2


1
Bazı ML algoritmalarının yüksek derecede korelasyonlu numuneler sorununa karşı bağışık olabileceğini kabul ediyorum, çünkü öznitelikleri tamamen ayrı ele alıyorlar. Ancak bu algoritmalar zaman serisi çalışmaları için de iyi değildir. Bir zaman serisi için umut vaat eden ML algoritmaları, # 1 özniteliğinin ve # 2 özniteliğinin aslında biraz benzer olduğunu fark edebilmelidir, aksi takdirde tahminlerde kötü olacaktır (zaman kaydırdığınızda tahmin kabaca benzer olmalıdır. 1). Bu algoritmalar Hyndman'ın bahsettiği sorundan da etkilenecektir.
maksimum
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.