Anomali tespiti için otomatik özellik seçimi


11

Anomali tespiti için özellikleri otomatik olarak seçmenin en iyi yolu nedir?

Önemli olan çıkış: Ben normalde özellikleri insan uzmanlar tarafından seçilir bir algoritma olarak Anomali Detection tedavi aralık o kadar hatta birçok özellikleri ile siz - ( "anormal çıkış anormal giriş" gibi) olabilir birleştirerek çok daha küçük bir alt kümesi ile gelip özellikler.

Bununla birlikte, genellikle bir özellik listesinin çok büyük olabileceğini varsayarsak, bazen otomatik bir öğrenme bazen tercih edilebilir. Görebildiğim kadarıyla bazı girişimler var:

  • Destek Vektör Verilerini genelleştiren "Anomali Tespiti için otomatik özellik seçimi" ( pdf )
  • "Kaba Set Teorisi Kullanan Hızlı Ana Bilgisayar Tabanlı Saldırı Tespit Sistemi" (sanırım kaba Set Teorisini kullanan)
  • İstatistiksel yaklaşım kullanan "Düşman Ağ Trafiğinin Anomali Tespiti için Öğrenme Kuralları" ( pdf , video )

Şimdi anlayabiliyorum merak ediyorum - anomali tespiti ve gerçekten büyük (yüzlerce?) Özellik seti varsayarak:

  1. Bu devasa özellik setleri hiç mantıklı mı? Sadece birkaç düzine kadar ayarlanan özelliği azaltmamalı mıyız, hepsi bu mu?
  2. Büyük özellik kümeleri mantıklıysa, yukarıdaki yaklaşımlardan hangisi daha iyi tahminler verebilir ve neden? Listelenmemiş çok daha iyi bir şey var mı?
  3. Örneğin, kümelenme / sıralama / vb. Yoluyla boyutsallık azalması veya özellik inşasına kıyasla neden daha iyi sonuçlar vermeliler?

Bağlantın bana özel bir soru getirmedi. Sorunun kısa bir açıklamasını verebilir misiniz? Amaç nedir? Denetimli veya denetimsiz bir öğrenme problemi mi?
AdamO

Soru şu anda kapalı olan ML.SE'den geliyordu - görünüşe göre yöneticiler tüm sorularda birleşmemişti. Sorunu açıkça belirtmek için metni şimdi düzenledim!
andreister

Yanıtlar:


1

Pratik bir yaklaşım (en azından gözetimli öğrenme durumunda) olası tüm ilgili özellikleri dahil etmek ve düzenli (L1 ve / veya L2) bir (genelleştirilmiş) doğrusal model (lojistik regresyon, doğrusal svm vb.) Kullanmaktır. Bu tür modeller için trilyonlarca örnek / özellik kombinasyonuyla başa çıkabilen açık kaynaklı araçlar (örn. Vowpal Wabbit) vardır, bu nedenle ölçeklenebilirlik bir sorun değildir (ayrıca, her zaman alt örnekleme kullanılabilir). Düzenleme, özellik seçimiyle başa çıkmanıza yardımcı olur.


Ancak denetimsiz ayarlarda özellikler nasıl seçilir (önemli özellikler bulmak için doğrusal modeller vb. Kullanmaya gerek kalmadan)? Düşünebileceğim bir yol, bazı varyansı korumak ve veri boyutunu azaltmak için PCA kullanmaktır. Fakat yine de, anomali tespit problemindeki verileri azaltmak tehlikeli görünebilir, çünkü tahmin etmek istediğiniz gerçek aykırı değerleri kaçırırsınız. Bu yüzden karışıklık.
exAres
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.