Kukla Özelliklerle (ve diğer Ayrık / Kategorik Özelliklerle) Anomali Tespiti


18

tl; Dr.

  • discreteAnomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?
  • categoricalAnomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?
  • Bu yanıt , yalnızca sonuçları filtrelemek için ayrık verilerin kullanılmasını önerir.
  • Belki de kategori değerini yüzdesel gözlem şansı ile değiştirebilir misiniz?

giriş

Bu benim ilk kez buraya gönderiyorum, bu yüzden lütfen, biçimlendirmede veya doğru tanımların kullanımında teknik olarak doğru bir şey görünmüyorsa, bunun yerine ne kullanılması gerektiğini bilmek istiyorum.

İleriye.

Son zamanlarda Makine Öğrenimine katıldım Andrew Ng tarafından dersine katıldım

Anomali tespiti için, bir veri seti içinde belirli bir özellik / değişken, için Normal / Gauss dağılım parametrelerinin ne olduğunu belirlememiz xive daha sonra belirli bir şekilde verilen belirli bir eğitim örneği / gözlem değerinin olasılığını belirlememiz öğretilmiştir. Gauss dağılımı ve ardından özelliklerin olasılıklarının ürününü almak.

Yöntem

Söz konusu etkinliği açıkladığını düşündüğümüz xi özelliklerini / değişkenlerini seçin :

{x1,x2,,xi}

Her özellik için Gauss parametrelerini takın:

μj=1mi=1mxj(i)
σ2=1mi=1m(xj(i)μj)2

Her eğitim örneği için, , hesaplama: p ( x ) = n j = 1 p ( x j ; μ j , σ 2 j )x

p(x)=j=1n p(xj;μj,σj2)

Daha sonra verilen bir anomali ( ) olarak işaretleriz : y = { 1y=1

y={1p(x)<ϵ0p(x)ϵ

Bu bize bir örneğin daha fazla inceleme gerektirip gerektirmediğini belirleme yöntemini verir.

Sorularım)

Bu, sürekli değişkenler / özellikler için iyi gözükmektedir, ancak ayrık veriler ele alınmamıştır.

Muhtemelen 0 , 1[IsMale] değerinde olabilecek bir cinsiyet bayrağı özelliği gibi kukla değişkenler hakkında ne söylenebilir ? Sahte bir özelliği hesaba katmak için bunun yerine p ( x ) hesaplamak için binom dağılımını kullanır mıydık ?0,1p(x)

Araba rengi gibi kategorik veriler ne olacak? Renkleri sayısal değerlerle eşleştirebiliriz, örneğin , ancak böyle bir kategorik özelliğin dağılımı eşit olabilir (yani renklerden herhangi biri olma olasılığı eşittir) ve daha fazlası , oluşan herhangi bir sayısal haritalama (yani, r , e d değerine sahip olan 1 , vs) bile önemli olduğunu (yapar normal dağıtılmak üzere denemek ve renkler için frekanslarının herhangi bir normal olmayan dağılım dönüştürmek için mantıklıdır, sıra değil sıralı değil ??)? Örneğin, benim için, bir l o yapmak mantıklı olmazred1,blue2red1 veri ne sürekli ne de sıralı olduğu için dönüşür. Bu yüzden, Gaussian'a uyacak şekilde "işkence yapmak" yerine, özelliğe uyanayrı bir dağıtımbulmak en iyisi olabilirmi?log()

Sorular: (güncellendi: 2015-11-24)

  • İkili değişkenler bir binom olasılık dağılımı ile modellenebilir ve hesaplamasında başka bir faktör olabilir mi?p(x)
  • Kategorik değişkenler Gauss yerine ayrık bir olasılık dağılımı ile modellenmeli ve hesaplamasında başka bir faktör olmalı mıdır?p(x)
  • Daha fazla araştırma yapabileceğim / öğrenebileceğim burada sorduğum şeyi dikkate alan başka bir yöntem var mı?
  • discreteAnomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?
  • categoricalAnomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?

Düzenleme: 2017-05-03

  • Bu yanıt , yalnızca sonuçları filtrelemek için ayrık verilerin kullanılmasını önerir.
  • Belki de kategori değerini yüzdesel gözlem şansı ile değiştirebilir misiniz?

<disclaimer> Tehlikeli olmaya yetecek kadar istatistik geçmişi olan biriyim. </disclaimer> Öyleyse tehlikeli olalım .... Sezgim seninle aynı fikirde, Gauss'un sürekli olmayan verileri işlemenin yolu olmadığını kabul ediyor. Sürekli veri için, sayı satırındaki bir değerin, bir tamsayı satırındaki bir sayı veya ikili bir değişkene kıyasla diğer tüm değerlerle farklı bir ilişkisi vardır. Binom dağılımları ikili değişkenleri tanımlar. Multinom dağılımları multinom değişkenlerini tanımlar. Bunların hepsi üstel aile üyeleri değil mi?
EngrStudent - Monica'yı


Herhangi bir tartışmaya eklenebilecek başka bir konu: Konu: kategorik aykırı değerler?
Adrian Torrie

pp(x;μ,σ2)=1σ2πe(xμ)22σ2

@ uvts_cvs evet kullanılan gaussaian olasılık yoğunluk fonksiyonu.
Adrian Torrie

Yanıtlar:


4

Genel olarak, hem ayrık * hem de kategorik özellikler için, bu yöntem özellikle aykırı analizlere uygun değildir. Kategorik öngörücülerle ilişkili büyüklük olmadığından, aşağıdakilerle çalışıyoruz:

  • Global verilerde gözlemlenen kategorinin sıklığı
  • Verilerin alt uzaylarında gözlemlenen kategorinin sıklığı

Gauss yönteminizin gerektirdiği gibi, bu özelliklerin hiçbirinin ayrı olarak analiz edilemeyeceğini unutmayın. Bunun yerine, kategorik özellikleri bağlamsal hale getiren ve verilerin korelasyonel doğasını dikkate alan bir yönteme ihtiyacımız var.

Aggarwal'ın Aykırı Analizine dayanan kategorik ve karışık özellik verileri için bazı teknikler :

  • Tüm gözlemlerde (veri türlerinden bağımsız olarak) pozitif bir semidefinite matrisi oluşturan bir benzerlik işlevi tanımlayabiliyorsanız, benzerlik matrisini hesaplayın S, köşegenleştirmesini bul S=Skλk2SkTve sıfır olmayan özvektörleri kullanın Sk gömme özelliği hesaplama E=Skλk. Her sıra için (gözlem)E, merkezden uzaklığını hesaplayın; bu aykırı puanınızdır ve aykırı değerleri belirlemek için tek değişkenli yöntemler kullanabilirsiniz.
  • Tamamen kategorik özellikleriniz varsa , ham kategorik verilere bir karışım modeli takın. Anormal noktalar en düşük üretkenliğe sahiptir.
  • Kullanım bir sıcak kodlama kategorik değişkenler için ve isteğe bağlı olarak , latent değişken analizi olmayan belirgin sürekli eşlemelerle sıra değişkenler için **
    • Bir etkin olmayan özellikleri standart hale getirin (tek etkin özellikler zaten örtülü olarak standartlaştırılmıştır) ve Temel Bileşen Analizi gerçekleştirin . Üst ana bileşenleri (veya özvektörlerin öz değerlerle ağırlıklandırıldığı yumuşak bir PCA yaklaşımı) kullanarak boyutsal azaltma gerçekleştirin ve tipik bir sürekli aykırı analiz yöntemi (örn. Bir karışım modeli veya Gauss yönteminiz) çalıştırın
    • Açı tabanlı bir analiz gerçekleştirin. Her gözlem için, tüm nokta çiftleri arasındaki kosinüs benzerliklerini hesaplayın. Bu benzerliklerin ("Açıya Dayalı Aykırı Faktör" olarak bilinir) en küçük varyansı olan gözlemler büyük olasılıkla aykırı değerlerdir. Neyin anormal olduğunu belirlemek için ABOF'un ampirik dağılımının nihai bir analizini gerektirebilir.
    • Aykırı değerleri etiketlediyseniz: Tasarlanan verilere (lojistik regresyon, SVM, vb.) Öngörülü bir model takın.

* Ayrık özellikler muhtemelen Gauss yönteminizde ele alınabilir. Doğru koşullar altında, bir özellik normal dağılımla iyi anlaşılabilir (örn. Npq> 3 ile binom rastgele değişken). Değilse, bunları yukarıda açıklanan ordinaller olarak kullanın.

** Bu, "kategori değerini yüzde gözlem şansı ile değiştir" fikrinize benzer


Ham kategorik verilere bir karışım modelini nasıl yerleştirirsiniz? Sadece var mıK=1? Ve birden fazla kategorik özellik için çalışır?
Akababa

@Akababa Örneğin, EM algoritmasını kullanarak çok terimli parametrelerde MLE'leri hesaplayabilirsiniz. Çok terimli RV'lerin bağımsızlığını varsayarsak, bu yaklaşım kategorik rasgele belirleyici kümeler üzerinde genelleme yapar. Burada
khol

0

Andrew Ng sınıfı matematiği "ayrık" verileri, "ayrık olmayan" verileri işlediği gibi işler. Tek yapmamız gereken normal dağıtım parametrelerini ampirik olarak tahmin etmektir ve ayrık veriler için mükemmel şekilde yapılabilir.

Bunu düşünürseniz, makine öğrenimi her zaman ayrık verilerle ilgilenir: veri noktalarının sayısı sonsuz değildir ve bilgisayarlar tarafından işlenen bitlerin sayısı sonsuz değildir.

Eğer birbirinden ayrı veri noktaları birbirleriyle karşılaştırılabilirse, o zaman uzunluk ile uğraşırken makine öğrenme yöntemleri için temel bir fark yoktur, örneğin: 1,15 ft 1,34 ft 3,4 ft

veya ağaçta kaç dal vardır: 1 2 3 5

Kayan noktayı veya tam sayıları aynı şekilde toplayabilir ve ortalama yapabilirsiniz.

Şimdi, kategorik verilere. Kategorik veri noktaları karşılaştırılamaz {araba vs motosiklet vs tekne). Bunu nasıl hallederiz?

Kategorilerin sayısının anlamlı olması için en az iki olması gerekir, aksi takdirde sabit özellik ne anlama gelir? 2 kategori olması durumunda, bir kategori özelliğini {0, 1} ikili özelliği olarak gösterebiliriz. 0 ve 1 matematik için kullanılabilir, bu yüzden yukarıya bakın.

Kategori sayısı (K) [3 .. inf] ise, tekli özelliğimizi K ikili ikili özel özelliklerle eşleştiriyoruz. Örneğin, "motosiklet" kategorisi {IsCar: 0, IsMotorcycle: 1, IsBoat: 0} ikili özelliklerinin bir kombinasyonu haline gelir, Boat point {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} vb. Olur.

Ampirik dağılım parametrelerini bu yeni özelliklerden tahmin edebiliriz. Sadece daha fazla boyuta sahip olacağız, hepsi bu.


1
Bu kukla kodlamayı açıklıyor ama bu sorunun cevabı değil
Pieter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.