Arka fon
Enerji sayacı okumalarının zaman serisi veri kümesi üzerinde çalışıyorum. Serinin uzunluğu metreye göre değişir - bazıları için birkaç yıl, diğerleri sadece birkaç ay, vb.
Üzerinde çalıştığım şeylerden biri, bu zaman serilerinin kümelenmesi. İşim şu an için akademik ve aynı zamanda verilerin analizini yaparken, bazı kümelenmeler yapmak konusunda özel bir hedefim var.
Çeşitli özellikleri hesapladığım bazı başlangıç çalışmaları yaptım (hafta sonları ile hafta içi kullanılan yüzdeleri, farklı zaman bloklarında kullanılan yüzdeleri vs.). Daha sonra farklı seriler arasındaki mesafeyi bulmak için Dinamik Zaman Sıçrama'yı (DTW) kullanmaya ve fark değerlerine göre kümelemeye devam ettim ve bununla ilgili birkaç makale buldum.
Soru
Belirli bir seride değişen mevsimsellik kümelenmenin yanlış olmasına neden olur mu? Ve eğer öyleyse, onunla nasıl başa çıkarım?
Benim endişem DTW tarafından elde edilen mesafelerin bir zaman serisindeki desenin değiştiği durumlarda yanıltıcı olabileceğidir. Bu yanlış kümelenmeye yol açabilir.
Yukarıdakilerin net olmaması durumunda, şu örnekleri göz önünde bulundurun:
örnek 1
Bir metre gece yarısından saat 08: 00'e kadar düşük okuma değerlerine sahiptir, okumalar bir sonraki saat için keskin bir şekilde artar ve saat 09: 00'dan 17: 00'a kadar yüksek kalır, daha sonra bir sonraki saat boyunca keskin bir şekilde düşer ve ardından 18: 00'den gece yarısına kadar düşük kalır. Sayaç, bu deseni birkaç ay boyunca her gün tutarlı bir şekilde sürdürür, ancak daha sonra okumaların gün boyunca tutarlı bir seviyede kaldığı bir kalıpta değişir.
Örnek 2
Bir sayaç, her ay tüketilen yaklaşık aynı miktarda enerjiyi gösterir. Birkaç yıl sonra, normal miktarına dönmeden önce yaz aylarında enerji kullanımının daha yüksek olduğu bir düzende değişir.
Muhtemel Yol Tarifi
- Tüm zaman serilerini karşılaştırmaya devam edip edemeyeceğimi merak ettim, ancak desen önemli ölçüde değişirse onları bölüp ayrı bir seri olarak düşünün. Ancak, bunu yapmak için, bu tür değişiklikleri tespit edebilmem gerekiyor. Ayrıca, bunun uygun bir yöntem olup olmadığını veya verilerle çalışıp çalışmadığını bilmiyorum.
- Ayrıca veriyi bölmeyi ve birçok ayrı zaman serisi olarak görmeyi de düşündüm. Örneğin, her gün / metre kombinasyonunu ayrı bir seri olarak düşünebilirim. Ancak, haftalık / aylık / yıllık modelleri dikkate almak istersem, benzer şekilde yapmam gerekir. Bunun işe yarayacağını düşünüyorum , ama potansiyel olarak oldukça zahmetli ve eğer daha iyi bir yol varsa, bu yola girmekten nefret ederim.
Ek Notlar
Bunlar yorumlarda ortaya çıkan şeyler veya yorumlardan dolayı düşündüğüm, alakalı olabilecek şeylerdir. Onları buraya koyuyorum, böylece insanlar ilgili bilgileri almak için her şeyi okumak zorunda kalmayacaklar.
- Python'da çalışıyorum ama R'nin daha uygun olduğu yerler için rpy'im var. Gerçi mutlaka bir Python cevabı aramıyorum - birisi ne yapılması gerektiğine dair pratik bir cevabı varsa, uygulama detaylarını kendim bulmaktan mutlu olurum.
- Çok çalışan "kaba taslak" kodum var - bazı DTW çalıştırmaları yaptım, birkaç farklı küme oluşturma işlemi yaptım, vb. Sanırım yönlendirdiğim yönü ve ne yaptığımı büyük ölçüde anlıyorum. Gerçekten aradığım şey, mesafeleri bulmadan, kümelemeyi çalıştırmadan vb. önce verilerimi nasıl işlediğimle ilgilidir. Bu verildiğinde, cevabın seri arasındaki mesafelerin DTW veya daha basit bir Euclidean Distance (ED) ile hesaplanıp hesaplanmadığıyla aynı olacağını düşünüyorum.
- Bu makaleleri özellikle zaman serileri ve DTW hakkında bilgilendirici buldum ve konu alanı için biraz arka plan gerektiğinde yardımcı olabilirler: http://www.cs.ucr.edu/~eamonn/selected_publications.htm