tl; Dr.
discrete
Anomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?categorical
Anomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?- Bu yanıt , yalnızca sonuçları filtrelemek için ayrık verilerin kullanılmasını önerir.
- Belki de kategori değerini yüzdesel gözlem şansı ile değiştirebilir misiniz?
giriş
Bu benim ilk kez buraya gönderiyorum, bu yüzden lütfen, biçimlendirmede veya doğru tanımların kullanımında teknik olarak doğru bir şey görünmüyorsa, bunun yerine ne kullanılması gerektiğini bilmek istiyorum.
İleriye.
Son zamanlarda Makine Öğrenimine katıldım Andrew Ng tarafından dersine katıldım
Anomali tespiti için, bir veri seti içinde belirli bir özellik / değişken, için Normal / Gauss dağılım parametrelerinin ne olduğunu belirlememiz ve daha sonra belirli bir şekilde verilen belirli bir eğitim örneği / gözlem değerinin olasılığını belirlememiz öğretilmiştir. Gauss dağılımı ve ardından özelliklerin olasılıklarının ürününü almak.
Yöntem
Söz konusu etkinliği açıkladığını düşündüğümüz özelliklerini / değişkenlerini seçin :
Her özellik için Gauss parametrelerini takın:
Her eğitim örneği için, , hesaplama: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
Daha sonra verilen bir anomali ( ) olarak işaretleriz : y = { 1
Bu bize bir örneğin daha fazla inceleme gerektirip gerektirmediğini belirleme yöntemini verir.
Sorularım)
Bu, sürekli değişkenler / özellikler için iyi gözükmektedir, ancak ayrık veriler ele alınmamıştır.
Muhtemelen 0 , 1[IsMale]
değerinde olabilecek bir cinsiyet bayrağı özelliği gibi kukla değişkenler hakkında ne söylenebilir ? Sahte bir özelliği hesaba katmak için bunun yerine p ( x ) hesaplamak için binom dağılımını kullanır mıydık ?
Araba rengi gibi kategorik veriler ne olacak? Renkleri sayısal değerlerle eşleştirebiliriz, örneğin , ancak böyle bir kategorik özelliğin dağılımı eşit olabilir (yani renklerden herhangi biri olma olasılığı eşittir) ve daha fazlası , oluşan herhangi bir sayısal haritalama (yani, r , e d değerine sahip olan 1 , vs) bile önemli olduğunu (yapar normal dağıtılmak üzere denemek ve renkler için frekanslarının herhangi bir normal olmayan dağılım dönüştürmek için mantıklıdır, sıra değil sıralı değil ??)? Örneğin, benim için, bir l o yapmak mantıklı olmaz veri ne sürekli ne de sıralı olduğu için dönüşür. Bu yüzden, Gaussian'a uyacak şekilde "işkence yapmak" yerine, özelliğe uyanayrı bir dağıtımbulmak en iyisi olabilirmi?
Sorular: (güncellendi: 2015-11-24)
İkili değişkenler bir binom olasılık dağılımı ile modellenebilir ve hesaplamasında başka bir faktör olabilir mi?Kategorik değişkenler Gauss yerine ayrık bir olasılık dağılımı ile modellenmeli ve hesaplamasında başka bir faktör olmalı mıdır?Daha fazla araştırma yapabileceğim / öğrenebileceğim burada sorduğum şeyi dikkate alan başka bir yöntem var mı?discrete
Anomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?categorical
Anomali tespiti yaparken verilerle başa çıkmanın önerilen yolu nedir ?
Düzenleme: 2017-05-03
- Bu yanıt , yalnızca sonuçları filtrelemek için ayrık verilerin kullanılmasını önerir.
- Belki de kategori değerini yüzdesel gözlem şansı ile değiştirebilir misiniz?