Bir dizi anormallik skoru ile çalışıyorum (arka plan bilgisayar ağlarında anomali tespitidir). Her dakika, ağın mevcut durumunun "beklenmedik" veya anormal olduğunu söyleyen anomali puanı . Puan ne kadar yüksek olursa, mevcut durum o kadar anormal olur. 5'e yakın puanlar teorik olarak mümkündür ancak neredeyse hiç gerçekleşmez.
Şimdi bu anomali zaman serisi için otomatik olarak bir eşik belirleyen bir algoritma veya formül bulmak istiyorum . Bir anomali skoru bu eşiği aşar aşmaz bir alarm tetiklenir.
Aşağıdaki frekans dağılımı, 1 günden fazla bir anomali zaman serisi için bir örnektir. Ancak, her anomali zaman serisinin böyle görüneceğini varsaymak güvenli değildir . Bu özel örnekte .99-kantil gibi bir anomali eşiği anlamlı olacaktır çünkü en sağdaki birkaç puan anomali olarak kabul edilebilir.
Ve zaman serisiyle aynı frekans dağılımı (zaman serisinde daha yüksek anomali skorları olmadığından sadece 0 ile 1 arasında değişir):
Ne yazık ki, frekans dağılımı .99-kantilinin yararlı olmadığı şekillere sahip olabilir . Aşağıda bir örnek verilmiştir. Sağ kuyruk çok düşüktür, bu nedenle .99-kantil eşik olarak kullanılırsa, bu birçok yanlış pozitifle sonuçlanabilir. Bu frekans dağılımı anomaliler içermiyor gibi gözüküyor, bu nedenle eşik dağılımın dışında 0.25 civarında olmalıdır.
Özetle, bu iki örnek arasındaki fark, birincisinin anormallikler sergilediği, ikincisinin ise görünmediğidir.
Saf bakış açısından, algoritma bu iki durumu göz önünde bulundurmalıdır:
- Frekans dağılımının büyük bir sağ kuyruğu varsa (yani birkaç anormal skor), .99-kantil iyi bir eşik olabilir.
- Frekans dağılımının çok kısa bir sağ kuyruğu varsa (yani anormal skorlar yoksa), eşik dağılımın dışında olmalıdır.
/ edit: Ayrıca temel bir gerçek yoktur, yani etiketli veri kümeleri mevcuttur. Dolayısıyla algoritma, anomali skorlarının doğasına karşı "kördür".
Şimdi bu gözlemlerin bir algoritma veya formül açısından nasıl ifade edilebileceğinden emin değilim. Bu sorunun nasıl çözülebileceğine dair bir önerisi olan var mı? İstatistiksel geçmişim çok sınırlı olduğu için açıklamalarımın yeterli olacağını umuyorum.
Yardımın için teşekkürler!