Özellik Çıkarma Tekniği - Bir Veri Dizisini Özetleme


11

Sıklıkla diziler olan bazı tahmin değişkenlerinin olduğu bir model (sınıflandırma veya regresyon) yapıyorum ve bunları modelde yordayıcılar olarak dahil etmek için mümkün olan en iyi şekilde özetlemek için teknik öneriler bulmaya çalışıyorum.

Somut bir örnek olarak, bir müşterinin önümüzdeki 90 gün içinde şirketi terk edip etmeyeceğini tahmin etmek için bir model oluşturulduğunu varsayalım (t ve t + 90 arasında herhangi bir zamanda; dolayısıyla ikili sonuç). Mevcut öngörücülerden biri müşterilerin t_0 ila t-1 dönemleri için finansal bakiyesidir. Belki bu, önceki 12 ay için aylık gözlemleri temsil eder (yani 12 ölçüm).

Bu seriden özellikler oluşturmanın yollarını arıyorum. Her müşteri serisinin ortalama, yüksek, düşük, standart geliştirme gibi eğilimlerini elde etmek için bir OLS regresyonuna uygun tanımlarını kullanıyorum. Diğer özellikleri hesaplama yöntemleri mi? Diğer değişim veya oynaklık ölçüleri?

EKLE:

Aşağıdaki yanıtta belirtildiği gibi, Dinamik Zaman Çarpıtma (DTW) kullanarak ve sonra da sonuçlanan mesafe matrisinde hiyerarşik kümelemeyi kullanarak (bazı kümeler oluşturarak ve sonra küme üyeliğini bir özellik olarak kullanarak) da düşündüm (ancak buraya eklemeyi unuttum). Puanlama verilerinin puanlanması, DTW'nin yeni vakalarda ve küme sentroidlerinde yapıldığı - yeni veri serilerini en yakın sentroidleriyle eşleştiren bir süreci takip etmek zorunda kalacaktır ...

Yanıtlar:


7

özellik mühendisliği / çıkarımı üzerine vaka çalışmaları toplanan bir kutuyu görmek isterdim

Lütfen bunun yardımcı olup olmadığını bildirin

  1. Zaman Serisi Verilerinin Ayrıklaştırılması http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. Bilgi Keşfi için Zaman Dizisi Ayrımlaştırmasını Optimize Etme https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. SAX Deneyimi: Zaman Serilerinin Yeni Sembolik Gösterimi http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. Büyük Veri Serilerinin Etkileşimli Keşfi için İndeksleme http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. Zaman Serisi Verilerinde Yapısal Örüntü Tanıma için Genelleştirilmiş Özellik Çıkarma http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. R'deki Dinamik Zaman Çözgü Hizalamalarının Hesaplanması ve Görselleştirilmesi: dtw Paketi https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

Burada yapmaya çalıştığınız şey özelliklerinizin boyutsallığını azaltmaktır. Birkaç seçenek elde etmek için boyutsal küçülmeyi arayabilirsiniz, ancak çok popüler bir teknik temel bileşenler analizidir (PCA). Temel bileşenler, bahsettiğiniz seçenekler gibi yorumlanamaz, ancak tüm bilgileri özetlemek için iyi bir iş çıkarırlar.


Bu cevapla ilgili endişem PCA'nın t ve t + 1 serileri arasındaki açık bağımlılığı tanımaması.
B_Miner

T ve t + 1 bağımlılığı bir eğilim veya mevsimsellik ise - onu çıkarmayı ve geri kalanıyla bağımsız değişkenlerle uğraşmayı düşünün.
Diego

2

Özellik çıkarma, her zaman bir meydan okuma ve literatürde daha az ele alınan bir konudur, çünkü yaygın olarak uygulamaya bağlıdır.

Deneyebileceğiniz bazı fikirler:

  • Her gün ölçülen ham veriler. Farklı uzunluktaki zaman çizelgelerini karşılaştırılabilir hale getirmek için bazı çıkarımlar ve ekstra ön işleme (normalleştirme) ile bu açıktır.
  • Yüksek anlar: çarpıklık, basıklık, vb.
  • Türev (ler): evrim hızı
  • Zaman aralığı o kadar büyük değil ama belki de otokorelasyon gibi zaman serisi analiz özelliklerini denemeye değer.
  • Hafta içinde zaman çizelgesini kırmak ve her hafta zaten ölçtüğünüz miktarları ayrı ayrı ölçmek gibi bazı özelleştirilmiş özellikler. Daha sonra, doğrusal olmayan bir sınıflandırıcı, zaman içindeki evrimi kavramak için örneğin ilk hafta özellikleri ile geçen hafta özellikleri birleştirebilir.

Güzel öneriler! Türev kullanımını daha fazla anlatabilir misiniz?
B_Miner

İlk ifadenize tamamen katılıyorum. Ben özellik mühendisliği / çıkarma üzerine vaka çalışmaları toplanan yazılı bir kutu görmek isterdim. Atasözü, özellik oluşturmanın öngörücü model performansındaki en büyük en büyük algoritmadan çok daha önemli olmasıdır.
B_Miner

2

İlk bakışta, zaman serilerinizden (x - 12) - x özellikleri ayıklamanız gerekir. Olası bir yaklaşım özet metrikleri hesaplamaktır: ortalama, dağılım, vb. Ancak bunu yaptığınızda, zaman serisiyle ilgili tüm bilgileri kaybedersiniz. Ancak eğri şeklinden çıkarılan veriler oldukça faydalı olabilir. Yazarların zaman serisi kümelemesi için algoritma önerdiği bu makaleye bakmanızı tavsiye ederim . Umarım faydalı olacaktır. Bu tür kümelemeye ek olarak, özellik listenize özet istatistikler ekleyebilirsiniz.


Bağlantı için teşekkürler. DTW ve hiyerarşik kümeleme kullanmayı da düşünmüştüm. DWT için R paketini denedim. j_tsiner//31
i07/

1
Özellikle n kümeleri oluşturmayı ve kümeleme üyeliğini bir özellik olarak kullanmayı düşündüm.
B_Miner
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.