Sinir ağı ile anomalileri tespit etme


12

Her gün oluşturulan çok boyutlu büyük bir veri setim var.

Önceki günlere kıyasla herhangi bir 'anomali' tespit etmek için iyi bir yaklaşım ne olurdu? Bu sinir ağları ile ele alınabilecek uygun bir problem midir?

Herhangi bir öneriniz için teşekkür ederiz.

ek bilgi: örnek yok, bu nedenle yöntem anormalliklerin kendisini tespit etmelidir

Yanıtlar:


12

Sorunun formülasyonundan, anormalliklerin (yani etiketlerin) "örnekleri" olmadığını varsayıyorum. Bu varsayımla, mümkün olan bir yaklaşım, otomatik enkoderleri kullanmak olacaktır : verilerinizi girdi olarak alan ve aynı verileri çıkarmak için eğitilmiş sinir ağları. Buradaki fikir, eğitimin ağın girdi veri dağılımlarının temsillerini gizli değişkenler biçiminde öğrenmesine izin vermesidir.

Orijinal verilerin bozuk sürümleri giriş olarak ve bozulmamış orijinal veriler çıkış olarak eğitilmiş denoising otoenkoder adı verilen bir tür otomatik kodlayıcı vardır . Bu, girişlerden paraziti (yani veri bozulmalarını) kaldırabilen bir ağ sunar .

Günlük verilerle denoising bir otomatik kodlayıcıyı eğitebilirsiniz. Sonra yeni günlük veriler üzerinde kullanın; bu şekilde orijinal günlük verilere ve aynı verilerin bozulmamış bir sürümüne sahip olursunuz . Daha sonra, önemli farklılıkları tespit etmek için her ikisini de karşılaştırabilirsiniz .

Burada önemli olan, hangi önemli farkın tanımını seçeceğinizdir. Öklid mesafesini hesaplayabilir ve belirli bir keyfi eşiği aşarsa bir anomaliniz olduğunu varsayabilirsiniz. Bir diğer önemli faktör, ortaya koyduğunuz yolsuzluk türleridir; makul anormalliklere mümkün olduğunca yakın olmalıdırlar.

Başka bir seçenek de Generatif Düşman Ağları kullanmak olacaktır . Eğitimin yan ürünü, normal günlük verileri anormal verilerden ayıran bir ayırıcı ağdır .


4

Bence bu, verilerinizin niteliğine (kategorik / sürekli) bağlıdır. Önce basit yöntemlerle başlardım. Bunlar aklıma geliyor:

  • Her bir değişkenin dağılımını, önemli ölçüde farklı olup olmadıklarını görmek için kantilleri veya herhangi bir istatistiksel testi kullanarak karşılaştırabilirsiniz.
  • Ayrıca her bir etiketin / kategorinin oluşumunu sayabilir ve karşılaştırabilirsiniz
  • Ayrıca herhangi bir mesafe ölçüsü kullanmaya çalışacağım. Örneğin, mahalanobis mesafesini hesaplayabilir ve büyük değişiklikler arayabilirsiniz
  • Ya da gerçekten basit bir şey - yeni ve eski veriler arasındaki mutlak fark, bir eşik ayarlayın ve eşiği aşan her şey rapor edilecektir
  • Ayrıca korelasyon matrisi, temel bileşenler, kümeleme vb.Gibi çok boyutlu teknikleri de uygulayabilir ve değişiklikleri arayabilirsiniz.

Bunların hiçbiri uygun değilse, anormallik tespiti için özelleştirilmiş tüm istatistik / ML modelleri dalı vardır. SVM, t-SNE, İzolasyon ormanları, Akran Grubu Analizi , Kırılma Noktası Analizi , Zaman serisi (trendlerin dışındaki aykırı değerlere bakacağınız yer).

Bu yöntemlerin bir çeşit beyaz kutu olma avantajı vardır, böylece birisinin neden bir aykırı olduğunu söyleyebilirsiniz. Bu istediğiniz bir şey değilse, diğerleri de işe yarayacak YSA yaklaşımları önerdi.


0

Benzer bir sorunu çözmeye çalışıyorum. Veri kümenizde metin ve sayısal özelliklerin bir karışımı var mı? Eğer öyleyse, anomalileri tespit etmenin karmaşıklığı artar (hangi faktör tarafından bilmiyorum). Veri kümeniz tekdüze ise, örneğin yalnızca sayısal değerler içeriyorsa, hala etiketli bir veri kümesine ihtiyaç duyan bir RNN kullanabilirsiniz, ancak desen gibi zaman serilerini algılayabilir (örn.


0

Otomatik kodlayıcıları kullanarak bunu yapmanın basit bir yolu ("bozuk veriler" ile eğitilmesi gereken "oto kodlayıcıları" kınamadan), bir otomatik kodlayıcıyı eğitmek ve daha sonra iyi kod çözülmeyen girdilerden (RMSE) giriş yapmaktır. otomatik kodlayıcıyı yeniden yapılandırmakta zorlandı). Bazı tanımlara göre, veriler bir anormalliği temsil edecektir (kesinlikle trafikteki ani artışlar için durum böyle olacaktır).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.