Bağlam: Yazım hatası olabilecek mantıksız verileri filtrelemek için klinik verileri analiz eden bir sistem geliştiriyorum.
Şimdiye kadar ne yaptım:
Akla yatkınlığı ölçmek için şimdiye kadar denediğim veriyi normalleştirmek ve sonra D setindeki bilinen veri noktalarına olan uzaklığına bağlı olarak p noktası için bir güvenilirlik değeri hesaplamaktı (= eğitim seti):
Bu kantifikasyon ile akla yatkın verileri akıl almaz verilerden ayıran bir eşik seçebilirim. Python / numpy kullanıyorum.
Benim sorunlarım:
- Bu algoritma bağımsız boyutları algılayamıyor. İdeal olarak, kayıt hakkında bildiğim her şeyi algoritmaya koyabilir ve X boyutunun kaydın uygunluğunu etkilemediğini kendi başına öğrenebilirim.
- Algoritma booleans veya select girişleri gibi ayrık değerler için gerçekten işe yaramaz. Sürekli değerlerle eşleştirilebilirler, ancak Select 1'in Select 2'ye Select 3'ten daha yakın olması sezgiseldir.
Soru:
Bu görev için ne tür algoritmalar aramalıyım? En yakın komşu temelli, kümelenme temelli ve istatistiksel yaklaşımları içeren bir ton seçenek var gibi görünüyor. Ayrıca, bu karmaşıklığın anormallik tespiti ile ilgili makaleler bulmakta zorlanıyorum.
Herhangi bir tavsiye çok takdir edilmektedir.
[Düzenle] Örnek:
Verilerin bir Kişinin Yüksekliği, Bir Kişinin Ağırlığı ve Zaman Damgasından oluştuğunu varsayalım - bu yüzden 3D Veriler. Ağırlık ve Yükseklik birbiriyle ilişkilidir, ancak zaman damgası tamamen bağımsızdır. Sadece öklid mesafelerini düşünürsem, çapraz doğrulama verilerimin çoğuna uyacak küçük bir eşik seçmem gerekirdi. İdeal olarak, algoritma sadece zaman damgası boyutunu göz ardı eder, çünkü bir kaydın makul olup olmadığını belirlemek önemsizdir, çünkü zaman damgası diğer boyutlarla hiçbir şekilde ilişkili değildir. Herhangi bir zaman damgası mantıklıdır.
Öte yandan, zaman damgasının önemli olduğu örnekler oluşturulabilir. Örneğin, X özelliği için Y değeri, belirli bir tarihten önce ölçüldüğünde makul olabilir, ancak belirli bir tarihten sonra mümkün olmayabilir.