Ölçeklenebilir Aykırı Değer / Anomali Tespiti


10

Hadoop, Kovan, Elastik Arama (diğerleri arasında) kullanarak büyük bir veri altyapısı kurmaya çalışıyorum ve bazı veri kümeleri üzerinde bazı algoritmalar çalıştırmak istiyorum. Algoritmaların kendilerinin ölçeklenebilir olmasını istiyorum, bu yüzden Weka, R ve hatta RHadoop gibi araçları kullanmak hariç tutulur. Apache Mahout Kütüphanesi iyi bir seçenek gibi görünüyor ve bu özellikleri regresyon ve kümeleme görevler için algoritmalar .

Bulmak için uğraştığım şey anomali veya aykırı tespit için bir çözüm.

Mahout, Gizli Markov Modelleri ve çeşitli kümeleme tekniklerine (K-Ortalamalar dahil) sahip olduğundan, bunlardan herhangi birini kullanarak zaman serilerinde aykırı değerleri tespit etmek için bir model oluşturmanın mümkün olup olmadığını merak ediyordum. Bu konuda deneyimli biri bana tavsiyede bulunsa minnettar olurum

  1. mümkünse ve olması halinde
  2. nasıl yapılır artı
  3. ilgili çabanın bir tahmini ve
  4. bu yaklaşımın doğruluğu / sorunları.

1
Bu cevaplanamayacak kadar belirsiz. Zaman serileri sadece k-araçlarını onlara atmak ve kullanışlı bir şey çıkarmak için çok farklı. Bu büyük ölçüde verilerinize bağlıdır.
ÇIKIŞ - Anony-Mousse

1
Aykırı algılama için ELKI'deki algoritmalara bir göz atın. Bu aykırı değer tespitinin en eksiksiz koleksiyonu gibi görünüyor.
QUIT VAR - Anony-Mousse

Daha yeni Elasticsearch sürümlerinde yerleşik zaman serisi anomali tespiti vardır (X-Pack'i satın almanız gerektiğini düşünüyorum). Hangi algoritmaları kullandıklarından emin değilim ama hazır bir çözümü araştırmaya değer olabilir.
tom

Yanıtlar:


7

T-digest, p-kare algoritması ile nasıl karşılaştırılır?
David Marx

Cevabınız için teşekkürler: Bu, aşırı miktarları hesaplamak için basit bir model ve bence ihtiyaçlarıma uygun olacak. Ancak, neredeyse sabit bir dağılımı olmayan daha karmaşık zaman serileri için bu yaklaşım başarısız olabilir ve o zaman Markov zinciri gibi uyarlanabilir bir şeye ihtiyacımız olacağını düşünüyorum.
doublebyte

0

Sen h2o R veya Python anomali tespit metodu ile ilgili benim yanıt başvurabilir Stack Exchange bu da ölçeklenebilir olduğundan,.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.