Zaman Serileri Anomalisi Tespiti için Algoritmalar


24

Şu anda R's: Twitter'ın AnomalyDetection: https://github.com/twitter/AnomalyDetection kullanıyorum . Bu algoritma, mevsimsellik içeren veriler için zaman serileri anomalisi tespiti sağlar.

Soru: Buna benzer başka algoritmalar var mı (mevsimsellik kontrol etmek önemli değil)?

Verilerimde olabildiğince fazla zaman serisi algoritması elde etmeye çalışıyorum ki en iyisini / topluluğu seçeyim.

Yanıtlar:


16

Twitter algoritması dayanmaktadır

Rosner, B., (Mayıs 1983), "Genelleştirilmiş ESD Çok Aykırı Bir İşlem İçin Yüzde Puan", Technometrics, 25 (2), pp. 165-172

1983'ten bu yana birçok teknik ve ilerlemelerin olduğuna eminim! Dahili verilerim üzerinde test yaptım ve Twitter'ın anomali tespiti bariz aykırılıkları tanımlamıyor. Zaman serisindeki aykırı değerleri test etmek için diğer yaklaşımları da kullanırdım. Karşılaştığım en iyisi, Tsay’ın SAS / SPSS / Autobox ve SCA yazılımında uygulanan outlier algılama prosedürü. Hepsi ticari sistemdir. Orada da tsoutliers harika ama belirtilmesine gereken pakette arimaverimli çalışması amacıyla modeli. auto.arimaOptimizasyon ve model seçimi ile ilgili varsayılan sorunlarım var .

Tsay'ın makalesi, zaman serilerinde aykırı saptamadaki seminal bir çalışmadır. Öngörme araştırmasında önde gelen dergi International Forecasting Journal (Uluslararası Tahmin Dergisi), Tsay'ın makalesinin yukarıda belirtilen bir makalede en fazla alıntı yapılan ve en etkili çalışmalardan biri olduğunu belirtti (ayrıca aşağıya bakınız). Bu önemli çalışmanın ve diğer açıklayıcı tespit algoritmalarının öngörme yazılımında (özellikle açık kaynaklı yazılımda) yayılması nadirdir.

görüntü tanımını buraya girin


14

İşte 2017 yılı itibariyle R'deki Anomali Tespiti için seçenekler.

Twitter'ın AnomalyDetection Paketi

  • Mevsimsel Hibrid ESD (SH-ESD) kullanarak çalışır;
  • Anomalileri saptamak için Generalized ESD testine dayanır;
  • Lokal ve global anomalileri saptayabilir;
  • Zaman serileri ayrıştırma ve sağlam istatistiksel ölçümleri kullanma (örneğin ESD ile birlikte medyan)
  • Uzun zaman serileri için parça parça yaklaşım kullanır;
  • Ayrıca, zaman damgalarının uygun olmadığı durumlarda bir metoda sahiptir;
  • Anomalilerin yönünü, ilgilenilen pencereyi belirtebilir, parça parça yaklaşımı değiştirebilir ve görsel desteği vardır.

anomalyDetection Paketi (Twitter'dan farklı)

  • Mahalanobis mesafesi, faktör analizi, Horn'un paralel analizi, blok incelemesi, temel bileşen analizi dahil olmak üzere çeşitli yaklaşımlar;
  • Sonuçları ile başa çıkmak için bir yöntem var.

tsoutliers paketi

  • Chen ve Liu prosedürünü takip eden zaman serilerindeki aykırı değerleri algılar ( https://www.jstor.org/stable/2290724?seq=1#page_scan_tab_contents );
  • Aykırı değerler, model parametrelerinin 'daha az kirlenmiş' tahminlerine, birden fazla doğrusal regresyon kullanarak tahmin edilen dış etki etkilerine dayanarak elde edilir ve model parametrelerini ve ortaklaşa etkileri tahmin eder.
  • Yenilikçi aykırı değerleri, ilave ayraçları, seviye kaymalarını, geçici değişiklikleri ve mevsimsel seviye kaymalarını dikkate alır.

Anormal-acm

  • Her bir zaman serisinde bir özellikler vektörünün hesaplanması (örneğin gecikme korelasyonu, mevsimsellik gücü, spektral entropi dahil), ardından özellikler üzerine sağlam ana bileşen ayrıştırması uygulayarak ve son olarak ilk iki ana bileşene çeşitli iki değişkenli dışlayıcı tespit yöntemleri uygulayarak çalışır;
  • Özellik vektörlerine göre en sıradışı serilerin tanımlanmasını sağlar;
  • Paket Yahoo'nun hem gerçek hem de sentetik veri kümelerini içerir.

gökkuşağı paketi

  • Poşet ve kutu lekeleri kullanır;
  • En düşük derinliğe veya yoğunluğa sahip aykırı değerleri tanımlar.

kmodR paketi

  • 2013 yılında Chawla ve Gionis tarafından önerilen k-araçlarının kullanılmasını kullanır ( http://epubs.siam.org/doi/pdf/10.1137/1.9781611972832.21 );
  • Standart k araçlarından daha dar kümeler oluşturmak (potansiyel olarak) için kullanışlıdır ve eşzamanlı olarak çok boyutlu uzayda ucuzu bulmak.

washeR yöntemi

Sağlam İstatistiksel Yöntemler için CRAN Görevi

  • Aykırı olanları tespit etmek için sağlam istatistiksel yöntemler kullanmak için çeşitli yaklaşımlar.

EDIT 2018

anomalize: Düzenli Anomali Tespiti


Zaman serisi verileri için hangisini kullanabileceğim, ancak mevsimselliği olmayan herhangi bir öneriniz var mı? Bu durumda twitter paketini kullanabilir miyim?
MikeHuber

Twitter paketi hem yerel hem de küresel anomalileri ele alıyor. Belgelerinde dedikleri gibi, “küresel anormallikler tipik olarak beklenen mevsimsellik seviyesinin altında veya üstünde uzanır ve bu nedenle mevsimsellik ve altta yatan eğilime tabi değildir”. Yani evet, Twitter paketini, zaman serilerindeki anomalileri mevsimselliği olmayan potansiyel olarak tespit etmek için kullanabilirsiniz. blog.twitter.com/engineering/en_us/a/2015/…
Sibernetik

8

Size yardımcı olabilecek birkaç kaynağa rastladım, ancak verileriniz üzerinde bir R betiği çalıştırmak kadar kolay / kullanışlı olmayacaklar: - Numenta açık anormal tespiti dahil birçok şey için kullanılan NuPIC platformlarını açık kaynaklı buluyor . - Netflix'in Atlas Projesi yakında açık kaynaklı bir outlier / anomali tespit aracı yayınlayacak. - Prelert , sunucu tarafı uygulama olarak gelen bir anormal tespit motoruna sahip. Denemeleri, ihtiyaçlarınızı karşılayabilecek sınırlı kullanım sunar.

Alternatif olarak, şirketim Insignum , zaman serisi verilerini alan ve anormallikleri tamamen otomatik bir şekilde algılayan beta ürününde bir ürüne sahip ve yalnızca anormallikler tespit edildiğinde e-posta yoluyla uyarılar alıyorsunuz. Twitter ya da Linkedin'e ulaşın, size daha fazla bilgi vermekten mutluluk duyarım.


3

Autobox (firmam) aşırılık tespitini sağlar. Twitter'ın algoritması büyük para kazananlar alıyor, ancak Autobox'a kıyasla daha küçük olanları özlüyor .

Koşması uzun zaman alıyor ancak sonuçlar daha küçük ayraçları bulmak için daha iyi ve aynı zamanda aykırı olan mevsimsellikteki değişimler de daha iyi. Aşağıda, 14.398 orijinal gözlemin ilk 8.560 gözlemini kullanan 79 aykırı model bulundu. Standart sürüm max, 10.000 gözlemde kullanıma sunuldu, ancak daha fazlası için değiştirilebilir, ancak aykırı olanları belirlemek ve bunlara cevap vermek istediğinizde, bu kadar veriye sahip olmak için gerçek bir neden yoktur.

Tsay tarafından aykırı değerler, seviye değişimleri ve varyans değişimi üzerine yapılan çalışmalardan ve Chow'un parametre değişikliklerine ilişkin çalışmalarından ve mevsimsellikteki değişiklikleri tespit etme çalışmalarından etkilendik.

30 günlük deneme sürümünü indirip Twitter örnek verisine yüklerseniz ve sıklığı 60 olarak belirtirseniz ve 3 tetikleyici dosyasını yükleme klasörüne (noparcon.afs, novarcon.afs, notrend.afs) kaydedin ve stepupde adlı bir dosya oluşturun. 100 ile afs.

görüntü tanımını buraya girin

görüntü tanımını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.