Dalgacıkların zaman serisi temelli anomali tespit algoritmalarına uygulanması


25

Andrew Moore'dan İstatistiksel Veri Madenciliği Dersleri yoluyla çalışmaya başladım (bu alana ilk kez giriş yapan herkese şiddetle tavsiye edilir). Moore'un hastalık salgınlarını tespit etmek için bir algoritma oluşturmada kullanılan tekniklerin çoğunu takip ettiği "Zaman serisi temelli anomali tespit algoritmalarına giriş genel bakış" başlıklı bu son derece ilginç PDF dosyasını okuyarak başladım . Slaytların yarısında, sayfa 27'de, salgınları tespit etmek için kullanılan bir dizi başka "son teknoloji yöntemi" listeliyor. Listelenen ilk dalgacıklardır . Wikipeida bir dalgacık olarak tanımlamaktadır.

Sıfırdan başlayan genlik dalga benzeri bir salınım artar, sonra sıfıra düşer. Tipik olarak "kısa salınım" olarak görselleştirilebilir.

ancak bunların istatistiki olarak uygulanmasını tarif etmiyor ve Google aramalarım, dalgacıkların konu ile ilgili istatistiklerle veya kitaplarla ilgili olduğunu bilen akademik makaleler sunuyor.

Dalgaların zaman serileri anomalisi saptamasına nasıl uygulandığına dair temel bir anlayış istiyorum, Moore'un öğreticisindeki diğer teknikleri gösterdiği gibi. Birisi dalgacıkları kullanarak tespit yöntemlerinin nasıl çalıştığını veya konuyla ilgili anlaşılabilir bir makaleye bir bağlantı verebilir mi?

Yanıtlar:


19

Dalgacıklar bir sinyalin tekilliklerini tespit etmek için yararlıdır (örneğin, buradaki makaleye bakınız (bir çizim için şekil 3'e bakınız) ve bu yazıda belirtilen referanslar. Sanırım tekillikler bazen bir anormallik olabilir mi?

Buradaki fikir Sürekli dalgacık dönüşümünün (CWT) frekanslar boyunca yayılan maksima hatlarına sahip olmasıdır, yani çizgi ne kadar uzun olursa, tekillik de o kadar yüksek olur. Ne demek istediğimi görmek için kağıttaki Şekil 3'e bakın! Bu yazıda ilgili ücretsiz Matlab kodu olduğunu unutmayın, olması gerektiği burada .


Ayrıca, sana bazı ayrıntılarıyla sezgisellerin verebilir neden AYRIK (önceki örnekteki sürekli biri hakkındadır) dalgacık dönüşümü ( DWT ) bir istatistikçi için ilginçtir (bahane olmayan exhaustivity):

  • Dalgacık dönüşümü ile seyrek bir diziye dönüşen geniş bir sınıf (gerçekçi (Besov alanı)) sinyali vardır . ( sıkıştırma özelliği )
  • Neredeyse ilişkisiz özelliklere sahip bir diziye dönüştürülen geniş bir sınıf (yarı-durağan) işlem sınıfı ( decorrelation özelliği )
  • Dalgacık katsayıları zaman ve sıklıkta lokalize edilmiş bilgiler içerir (farklı ölçeklerde). (çok ölçekli özellik)
  • Bir sinyalin dalgacık katsayıları tekilliklerine odaklanır .

19

Sunumda referans gösterdiğiniz liste bana oldukça rasgele görünüyor ve kullanılacak olan teknik gerçekten belirli bir soruna bağlı olacaktır. Bununla birlikte Kalman filtreleri de içerdiğini not edersiniz , bu nedenle kullanım amacının filtreleme tekniği olarak kullanıldığından şüpheleniyorum. Dalgacık dönüşümleri genellikle sinyal işlemenin altına girer ve genellikle çok gürültülü veri içeren bir ön işleme adımı olarak kullanılır. Bir örnek, Chen ve Zhan'ın “ Çok Ölçekli Anomali Tespiti ” makalesidir (aşağıya bakınız). Yaklaşım, orijinal gürültülü serilerden ziyade farklı spektrumda bir analiz yapmak olacaktır.

Dalgacıklar, sürekli ve sürekli bir fourier dönüşümü ile karşılaştırılır, ancak hem zaman hem de sıklıkta lokalize olma avantajına sahiptirler. Dalgaklar hem sinyal sıkıştırma hem de düzleştirme için kullanılabilir (dalgacık büzülmesi). Sonuçta, dalgacık dönüşümü uygulandıktan sonra (örneğin oto-korelasyon fonksiyonuna bakarak) başka bir istatistiğin uygulanması anlamlı olabilir. Anormalliğin tespiti için faydalı olabilecek dalgacıkların bir başka yönü lokalizasyonun etkisidir: yani bir süreksizlik sadece onun yanında olan dalgayı etkiler (dörtlü bir dönüşümün aksine). Bunun bir uygulaması yerel olarak durağan zaman serilerini bulmaktır (bir LSW kullanarak).

Guy Nason , pratik istatistiksel uygulamaya daha fazla dalmak istiyorsanız tavsiye edebileceğim güzel bir kitabı var: " R ile İstatistikte Dalgacık Yöntemleri ". Bu özellikle dalgacıkların istatistiki analize uygulanmasını hedeflemektedir ve tüm kod ile birlikte ( wavethresh paketini kullanarak ) birçok gerçek dünya örneği sunmaktadır . Nason'un kitabı, genel olarak genel bir bakış sağlamak için amiral bir iş yapmasına rağmen, özellikle "anomali tespitini" ele almıyor.

Son olarak, wikipedia makalesi birçok iyi tanıtım referansı sunar, bu yüzden ayrıntılı olarak bu konuda incelemeye değer.

[Bir not olarak: Değişim noktası tespiti için iyi bir modern teknik arıyorsanız, dalgacık yöntemleriyle çok fazla zaman harcamaktan önce, belirli bir alanda dalgacık kullanmak için iyi bir nedeniniz yoksa, bir HMM denemenizi öneririm. Bu benim kişisel deneyimime dayanıyor. Elbette düşünülebilecek diğer birçok doğrusal olmayan model var, bu gerçekten sizin özel probleminize bağlı.]


1
Gizli Markov Modellerinin anormallik tespiti için nasıl kullanıldığını bana açıkça söylemiyorum ama çok bilmek istiyorum. Bana özel olarak açık olan kısım, anlamlı geçiş olasılıkları olan doğru bir temel durum makinesinin nasıl oluşturulacağıdır (aralarında naif geçiş olasılığı olan "anomali" ve "anomali değil" gibi sadece iki durum olmadığı sürece).
John Robertson

6

En sık kullanılan ve uygulanan ayrık dalgacık temelli fonksiyonlar (Robin'in cevabında açıklanan CWT'den farklı olarak), anormallik tespiti için faydalı kılan iki hoş özelliğe sahiptir:

  1. Kompakt olarak desteklenirler.
  2. Destekleri tarafından belirlenen geçiş bandı ile bant geçişi filtreleri gibi davranırlar.

Bunun pratik olarak anlamı, ayrık dalgacık ayrışmanızın, çeşitli ölçeklerde ve frekans bantlarında sinyaldeki yerel değişikliklere bakmasıdır. Örneğin, daha uzun bir süre boyunca düşük büyüklük kayması gösteren bir işlevde üst üste bindirilmiş (örneğin) büyük, yüksek frekanslı gürültünüz varsa, dalgacık dönüşümü bu iki ölçeği etkin bir şekilde ayıracak ve diğer birçok kaymayı görebilmenizi sağlayacaktır. teknikler özleyecektir; Bu bazal çizgideki bir değişiklik, bir hastalık salgını veya başka bir ilgi değişikliği belirtisi olabilir. Bozulmanın kendisini daha yumuşak bir şekilde ele alabilirsiniz (ve parametrik olmayan kestirimde dalgacık katsayıları için etkin büzülme üzerinde oldukça fazla iş yapılmıştır, örneğin Donoho'nun dalgacıkları hakkında hemen hemen her şeyi görün). Saf frekans tabanlı yöntemlerin aksine, Kompakt destek, durağan olmayan verileri kullanabildikleri anlamına gelir. Tamamen zamana dayalı yöntemlerin aksine, bazı frekansa dayalı filtrelemeye izin verirler.

Pratik açıdan, anormallikleri tespit etmek veya puanları değiştirmek için, verilere ayrı bir dalgacık dönüşümü (muhtemelen "Maksimum Örtüşme DWT" veya "değişmeyen DWT" olarak bilinen varyant) uygular ve Taban çizgisinde kayda değer kaymalar olup olmadığını görmek için düşük frekanslı katsayı kümelerinde. Bu, herhangi bir günlük gürültünün altında uzun süreli bir değişiklik meydana geldiğinde size gösterecektir. Percival ve Walden (aşağıdaki referanslara bakın), bunun gibi bir kaymanın anlamlı olup olmadığını görmek için kullanabileceğiniz istatistiksel olarak anlamlı katsayılar için birkaç test yapın.

Ayrık dalgacıklar için mükemmel bir referans çalışması Percival ve Walden, "Zaman Serileri Analizi için Dalgacık Metodları" dır. İyi bir tanıtım çalışması Burrus, Gopinath ve Guo tarafından "Dalgacık ve dalgacık dönüşümlerine giriş, bir astar" dır. Bir mühendislik altyapısından geliyorsanız, “mühendisler ve bilim insanları için dalgacık unsurları” sinyal işleme açısından iyi bir giriş niteliğindedir.

(Robin'in yorumlarını içerecek şekilde düzenlendi)


Bahsettiğiniz ilk nokta genel olarak yanlıştır, books.google.fr/… bölümünün ilk cümlesini Daubechie kitabında okumanızı öneririm . Buna ek olarak, cevabımı okuduysanız, cevabımın 2. bölümünde DWT'nin güzel mülkünden çoktan bahsetmiştim ...
robin girard

İlk olarak, haklısın. "En sık kullanılan / kullanılan ayrık dalgacık taban fonksiyonları" demeliydim; Bunu yansıtacak şekilde düzenleyeceğim. İkinci noktaya, bazı CWT'lerin (çoğunlukla bir DOG dalgası veya ilgili Ricker dalgası; örneğin Gabor dalgası gibi bir şeyin tanımladığınız davranışı sağlayamayacağı) tekillik türündeki anomalileri nasıl tespit edebileceği konusunda iyi bir cevap verdiniz. DWT'nin başka tür anomalileri tespit etmek için nasıl kullanılabileceğinin benzer bir tarifini vermeye çalışıyordum.
Rich

Bahsettiğiniz ikinci noktanın da yanlış olması muhtemeldir: dalgacık desteği (küçükse) dalganın frekans lokalizasyonu değil dalgacın geçici lokalizasyonu hakkında bilgi veriyor.
Robin Girard

Ayrık dalgacıklar - veya en azından uygulanan ve yaygın olarak kullanılanların büyük çoğunluğu - tipik olarak, kompakt destek kısıtı altında faydalı frekans bazlı özelliklere sahip olacak şekilde tasarlanmıştır. Daubechies'in kaybolma momenti koşulu, örneğin, geçiş bandındaki düzlükle hemen hemen aynıdır. Dalgacıkların frekans lokalizasyon özellikleri genellikle katsayıların seyrek temsili olmasına neden olan ve "sinyal + ilave sıfır-ortalama gürültü" varsayımı altında gürültü varyansının tahmin edilmesini sağlayan şeydir.
Rich
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.