Zamansal veriler için uygun kümeleme teknikleri?


13

Etkinlik sıklıkları hakkında geçici verilerim var. Verilerdeki benzer aktivite seviyelerine sahip farklı zaman aralıklarını gösteren kümeleri tanımlamak istiyorum. İdeal kümeleri tanımlamak istediğiniz olmadan kümeler önsel sayısını belirterek.

Uygun kümeleme teknikleri nelerdir? Sorumun yanıtlaması için yeterli bilgi içermiyorsa, uygun kümeleme tekniklerini belirlemek için sağlamam gereken bilgiler nelerdir?

Aşağıda hayal ettiğim veri / kümeleme türünün bir örneği bulunmaktadır: zaman içinde kümelenme


Arsa bana pürüzsüz (enterpolasyonlu) görünüyor. Muhtemelen yanıltıcıdır. Ve "boyuna" Ben geodata ile ilişkili, ama görünüşe göre bir zaman serisi bakıyorsun?
ÇIKIŞ - Anony-Mousse

1
Arsaya çok fazla dikkat etmeyin, bu sadece bir örnektir. Ne elde etmek istiyorum, zaman içinde değişen değişkenlere dayalı farklı zaman bölümlerinin tanımlanmasıdır. Boyuna, aklımda, bkz zamansal veri olarak aynıdır örneğin en.wikipedia.org/wiki/Longitudinal_study
histelheim

Çünkü kümelenmede, bu terimi çoğunlukla en.wikipedia.org/wiki/Longitude'da olduğu gibi göreceksiniz - sorunuzdan ne kümelemek istediğiniz açık değildir . Örneğin , "özneler" arasında benzer davranan zaman aralıklarını veya zaman içinde aynı ilerlemeyi gösteren özneleri kümeleyebilirsiniz .
QUIT - Anony-Mousse

1
Karışıklığı önlemek için 'boyuna' kelimesini 'zamansal' olarak değiştirdim. Kelimelerini kullanarak, sanırım zaman aralıklarını kümelemek istiyorum . Bununla birlikte, kümelerin zaman içinde farklı, sürekli bölümler olması benim için önemlidir.
histelheim

"Zaman serisi segmentasyonu" veya "rejim değiştirme modelleri" anahtar kelimeleriyle yapılan aramalar size yardımcı olabilir.
Yves

Yanıtlar:


6

Kendi araştırmamdan Gauss Gizli Markov Modelleri iyi bir uyum gösterebilir: http://scikit-learn.org/stable/auto_examples/plot_hmm_stock_analysis.html#example-plot-hmm-stock-analysis-py

Kesinlikle farklı aktivite bölümleri buluyor gibi görünüyor.

Gauss Gizli Markov Modeli


Önünüzde kaç gizli durum olduğunu bilmek zorunda değil misiniz? Bunu aşmanın bir yolu var mı?
JCWong

@JCWong Bunu önlemek için parametrik olmayan bir Bayes varyantı (sonsuz gizli Markov modeli) kullanabileceğinizi düşünüyorum.
jtobin

Ancak uzun bir süre sonra: HMM olayları geçici olarak kümeliyor / gruplandırmıyor (şekilden göründüğü gibi). Ancak, geçici kümelerin nasıl elde edileceği sorulmuştur. Zamansal kümeleme işleri üzerinde çalıştığım için merak ediyorum.
RussellB

3

Sorununuz baktığım soruya benziyor ve bu soru benzer, ancak daha az açıklanmış.

Yanıtları Değişim Tespiti ile ilgili iyi bir özetle bağlantılıdır. Olası çözümler için, hızlı bir google araması Google kodunda bir Değişiklik Noktası Analizi paketi buldu . R'nin bunu yapmak için bazı araçları da var. bcpPaket oldukça güçlü ve gerçekten kolay kullanmaktır. Veriler geldiğinde bunu anında yapmak istiyorsanız, "On-line değişiklik noktası tespiti ve genomik verilere uygulama ile parametre tahmini" makalesi biraz karmaşık olduğu konusunda uyarılmalıdır. Orada da var strucchangepaketi ama bu benim için daha az çalıştı.



1

Bu sayfayı gördünüz mü: UCR Zaman Serisi Sınıflandırma / Kümeleme Sayfası ?

Burada her ikisini de bulabilirsiniz: kendi uygulamanızın performansını karşılaştırmak için pratik ve yayınlanmış veri setleri (iyi bilinen makine öğrenimi tekniklerinin bilinen performansıyla ilgili bir bağlantı da vardır). Ayrıca, bu sayfa, sorununuza, verilerinize veya ihtiyaçlarınıza en uygun yaklaşımı araştırmak için daha ileri gidebileceğiniz kritik bir makale kitlesinden bahsediyor.

Ayrıca, sekansör http: // sequitur.info uygulanarak (potansiyel olarak) bunu yapmanın başka bir yolu vardır. Verilerinizi normalleştirebilir / yaklaşık hale getirebiliyorsanız, bu "benzer etkinlik düzeylerine sahip farklı zaman dilimlerinin" gramerini verir, bu makaleye bakın ve başka bir tane arayın, çünkü daha fazla bağlantı ekleyemiyorum ...


3
Bu sayfada mevcut olan kaynakların kısa bir özetini verebilir misiniz?
chl

Tabii ki yapabilirim. oradan başlayarak kendi sınıflandırıcımı
kodladım

1

Farklı zaman serileri arasındaki benzerlikleri aramak için Dinamik Zaman Kaydırma özelliğini kullanabileceğinizi düşünüyorum. Bunu yapmak için dalgacınızı bir dizi gibi koleksiyonlara ayırmanız gerekebilir. Ancak, ayrıntı düzeyi bir sorun olacaktır ve çok sayıda zaman diziniz varsa, hesaplama maliyeti her bir çift için DTM mesafesini hesaplamak için oldukça büyük olacaktır. Dolayısıyla, etiket olarak çalışmak için bazı ön seçimlere ihtiyacınız olabilir.

Kontrol bu out. Ben de seninki gibi bir görev üzerinde çalışıyorum ve bu sayfa bana yardımcı oldu.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.