Çok değişkenli zaman serilerini sınıflandırır


9

Yaklaşık 40 boyuta sahip zaman serilerinden (8 puan) oluşan bir veri setim var (bu yüzden her zaman serisi 8 x 40'tır). Karşılık gelen çıkış (kategoriler için olası sonuçlar) eitheir 0 veya 1'dir.

Birden fazla boyuta sahip zaman serileri için bir sınıflandırıcı tasarlamak için en iyi yaklaşım hangisidir?

İlk stratejim şu zaman serilerinden özellikler çıkarmaktı: her boyut için ortalama, standart, maksimum varyasyon. RandomTreeForest'ı eğitmek için kullandığım bir veri kümesi aldım. Bunun toplam saflığının farkında olarak ve kötü sonuçlar elde ettikten sonra, şimdi daha gelişmiş bir model arıyorum.

Potansiyel müşterilerim şunlardır: seriyi her boyut için sınıflandırın (KNN algoritması ve DWT kullanarak), boyutlandırmayı PCA ile azaltın ve çok boyutlu kategoriler boyunca bir son sınıflandırıcı kullanın. ML'ye nispeten yeni geldiğimden, tamamen yanlış olup olmadığımı bilmiyorum.


Yaptığınız şey oldukça iyi bir yaklaşım. Veri kümenizde kaç örnek var?
Kasra Manshaei

Yaklaşık 500 000 zaman
serim var

Sadece 320 özellikleri ham kullanmayı denediniz mi?
320.000

@Jan van der Vegt: Sinir ağı kullanarak bu yöntemi denedim, ancak sonuçlar çok ikna edici değildi - ham verileri herhangi bir ön işleme tabi tutulmadan kullandım. Sınıflandırıcıyı beslemek için 320 özellikli satırlarımda önceden hangi işlemleri yapmalıyım?
AugBar

1
Sinir ağının normalleşmesi durumunda, önemli olabilecek özelliklerinizin aralığına bağlı olarak girdileriniz önemlidir. Ama sadece ham özellikleri bir RF'ye
beslerdim

Yanıtlar:


5

Doğru yoldasın. Hem zaman hem de frekans alanında birkaç özellik daha hesaplamaya bakın. Numune sayısı >> özellik sayısı olduğu sürece, fazla uyum sağlama olasılığınız yoktur. Benzer bir problem hakkında literatür var mı? Eğer öyleyse, bu her zaman harika bir başlangıç ​​noktası sağlar.

Xgboost veya LightGBM gibi güçlendirilmiş bir ağaç sınıflandırıcısını deneyin. Hiperparametreleri ayarlamak daha kolay olma eğilimindedir ve varsayılan parametrelerle iyi sonuçlar verir. Hem Random Forest hem de güçlendirilmiş ağaç sınıflandırıcıları özellik önemini döndürebilir, böylece hangi özelliklerin sorunla ilgili olduğunu görebilirsiniz. Herhangi bir kovaryans olup olmadığını kontrol etmek için özellikleri kaldırmayı da deneyebilirsiniz.

En önemlisi, sonuçlarınız beklenmedik bir şekilde zayıfsa, sorununuzun doğru tanımlandığından emin olun. Pipeline'ınızda herhangi bir hata olmadığından emin olmak için sonuçlarınızı manuel olarak kontrol edin.



2

Veri kümenize aşağıdaki gibi daha fazla özellik ekleyebilirsiniz.

  1. Verileriniz oldukça doğrusal olmayan bir işlemdeyse nolds paketini deneyebilirsiniz.

  2. max, min, mean, skew, basıklık ve mümkünse bazı yuvarlanma istatistikleri.

Benzer bir şey üzerinde çalışıyorum ve ilgili bir soru sordum .


1

Jan van der Vegt ile hemfikirim, aktivasyon fonksiyonu ile birlikte standardizasyon (örn. [-1, 1]) veya normalizasyon N (0, 1) sinir ağları için çok önemli olabilir. YSA'ların giriş ve çıkışları için Pichaid Varoonchotikul'un “Yapay sinir ağlarını kullanarak sel tahmini” tezini kontrol ederdim. Çok ilginç uyarılar var. Her neyse, ilk önce denemek için kullanıyorum, ancak sonuçlar tatmin edici olmadığında, her ikisiyle de deneme yapmak için kullanıyorum. Bu yardımcı olacaktır emin değilim ama TSclust R paketi ve ilgili dokümanlar kontrol ediyorum . Yazarlar çok nazik ve bunu yapmak için belirli modeller bulmanıza yardımcı olacaklar. Zaman serisi analizleri konusunda uzmandırlar! İyi şanslar!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.