Çok küçük setlerde aykırı algılama


12

On iki örnek parlaklık değeri verildiğinde esas olarak kararlı bir ışık kaynağının parlaklığı için olabildiğince doğru bir değer elde etmeliyim. Sensör kusurlu ve ışık zaman zaman daha parlak veya daha karanlık "titreyebilir", bu da göz ardı edilebilir, bu nedenle daha fazla algılama ihtiyacım var (sanırım?).

Burada çeşitli yaklaşımları okudum ve hangi yaklaşımın uygulanacağına karar veremiyorum. Aykırı değerlerin sayısı hiçbir zaman önceden bilinmemektedir ve genellikle sıfır olacaktır. Titreşim genellikle sabit parlaklıktan çok büyük bir sapmadır (büyük bir tane ile alınan herhangi bir ortalama ile gerçekten dağınıklık için yeterlidir), ancak ille de öyle değildir.

İşte sorunun tamlığı için 12 ölçümden oluşan bir örnek set:

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

Bağırsak hissim, 292 ve 295 biraz yüksek görünmesine rağmen, bu sette muhtemelen hiçbir aykırı değer yok.

Benim sorum şu, buradaki en iyi yaklaşım ne olurdu? Değerlerin, ışığın RG ve B bileşenlerinin öklid mesafesini sıfır (siyah) noktadan almaktan geldiğini belirtmeliyim. Gerekirse bu değerlere geri dönmek programlı olarak acı verici olabilir, ancak mümkündür. Öklid mesafesi, renkle ilgilenmediğim için sadece toplam gücün bir ölçüsü olarak kullanıldı. Ancak, bahsettiğim titremelerin normal çıktıdan farklı bir RGB kompozisyonuna sahip olma olasılığı makul.

Şu anda izin verilen önlemlerin istikrarlı bir üyeliğine ulaşana kadar tekrar edecek bir tür işlevle oynuyorum:

  1. Standart sapmayı bulma
  2. Dışarıdaki her şeyi 2 SD'yi yok sayma listesine koymak
  3. Yoksay listesi hariç tutularak ortalamanın ve SD'nin yeniden hesaplanması
  4. Yeni ortalamaya ve SD'ye göre kimin göz ardı edileceğine yeniden karar verme (12 tanesinin tümünü değerlendirin)
  5. Kararlı olana kadar tekrarlayın.

Bu yaklaşımda bir değer var mı?

Tüm yorumlar minnetle kabul edilir!


Olsa da, bir titreşimin aslında farklı RGB bileşenlerine sahip olabileceği (bazen siyahtan benzer bir mesafe olsa da) için spekülasyonunuzun peşinde koşmaya değer. Başka bir seçenek, hedefinize bağlı olarak ortalama yerine medyan kullanmaktır.
Wayne

Yanıtlar:


7

Küçük numunelerdeki aykırı değerler her zaman çok zor olabilir. Çoğu durumda, verilerinizin açıkça bozulmadığını düşünüyorsanız, "aşırı" bir değerin sorunlu olmayabileceğini ve hariç tutulmasının mantıksız olabileceğini savunuyorum. Muhtemelen sağlam istatistiksel teknikler kullanmak daha mantıklı ve orta yollu bir çözüme daha yakın olacaktır. Küçük bir örneğiniz var; her örnek noktasını saymaya çalışın. :)

Önerdiğiniz yaklaşımla ilgili olarak: Onlara 68-95-99.7 kuralı (2SD sezgisel kuralınızla bir şekilde yaptığınız gibi) verileriniz için bir normallik varsayımını aceleyle zorlamam. Chebyshev'in bir kez eşitsizliği, üzerinde daha az katı olan 75-88.9-93.8 bir kural olduğunu varsayar. Başka " kurallar " da vardır; Tanımlama aykırı bölümünde Aykırı wikipedia lemma sezgisel bir paket bulunur.

Burada başka biri: Ben bir ücretsiz kitap referans konuda rastlamak, İstatistiksel Yöntemler NIST / SEMATECH e-Handbook , hediyeler Iglewicz ve Hoaglin aşağıdaki fikri (1993): Kullanımı modifiye -scores şekilde:MZM

Mi=.6745(xix~)/MAD

nerede sizin olan medyan ve MAD olan medyan mutlak sapma Numunenizin. O zaman 3.5'in üzerindeki mutlak değerlerinin potansiyel aykırı değerler olduğunu varsayalım . Bir yarı-parametrik öneri (bunların çoğu gibi, bir parametre burada olmak ). Örnek durumunuzda, 295.5'inizi marjinal olarak hariç tutacaktır, ancak 292.6 ölçünüzü açıkça koruyacaktır ... M3.5x~M3.5

Yine, eğer gerçekten küçük bir örneğiniz varsa, örneğin açık bir şekilde bozulmadığını düşünüyorsanız (bir insan 9'4 "boyunda), verileri aceleyle hariç tutmamanızı tavsiye ederim." Şüpheli aykırı değerleriniz "bozulmamış veriler olabilir; kullanımları analizinize zarar vermek yerine yardımcı olabilir.


1
Küçük bir nokta, ama büyük olasılıkla ısırılabilecek bir nokta, özellikle belgeleriniz dikkatsizce okunduğunda veya alıntılandığında: Ortalama için çok yaygın kullanımı göz önüne alındığında, medyan için notasyonuna şiddetle tavsiye ediyorum . Gariptir ya da değil, hiçbir gösterim medyan için yaygın olarak kullanılmaz gibi görünür, ancak neredeyse her şey , örneğin med veya daha iyi olurdu . ˉ x ˜ xx¯x¯x~
Nick Cox

1
Sağlam özetlerin değerine güçlü bir vurgu için +1. Ayrıca bu sitedeki diğer konulara da bakın.
Nick Cox

1
@NickCox: İyi, ilk başta ne düşündüğümü bilmiyorum. Şimdi değiştirdim. Önerin için teşekkürler.
usεr11852


0

İlkini işaret edin - rgb rengine geri dönmeye değer olabilir. Verileri atmak nadiren iyidir ve rgb vektörünün büyüklüğü parlaklığı temsil etmenin tek yolu değildir - algılanan parlaklık ve HSV'deki değer farklıdır .

Ama bunu bir tarafa koymak ve sahip olduğunuz verilerle uğraşmak, bunu modellemek yerine bir sınıflandırma problemi olarak şekillendirmeyi ve makine öğrenimi yapmayı düşündünüz mü? İçinde 12 gerçek değeri olan bir vektör olan bir girişiniz var (parlaklık okumaları). 12 ikili değerin bir vektörü olan bir çıktınız var (1 = inlier, 0 = outlier). Birkaç parlaklık okuma seti alın ve her bir sette hangi parlaklık okumasının bir öncü / aykırı olduğunu göstererek kendiniz etiketleyin. Bunun gibi bir şey:

Daha sonra, tüm lotu bir tür sınıflandırıcı ile çalıştırın:

  • 12 farklı ikili değer veren tek bir sınıflandırıcı kullanabilirsiniz - sinir ağı bunu kolayca ayarlamanıza izin verir.
  • Veya standart bir ikili sınıflandırıcı (örn. SVMlite ) kullanabilir ve biri çıktıdaki her öğenin bir iç / dış değer olup olmadığını sınıflandıran 12 farklı model eğitebilirsiniz.

Ve işiniz bitti! Aykırı değerleri kendiliğinden aykırı değerlerden ayıran `` kuralı '' bulmaya çalışmak gerekmez. Sadece mantıklı görünen birkaç veri seti alın ve makinenin bunu sizin için yapmasına izin verin :)

~~~

DÜZENLEME: Bu arada, bir gaussian yinelemeli olarak takılan ve her bir örneği 2'den fazla standart sapmayı bir uç değer olarak sınıflandırdığınız önerilen yöntem, bir beklenti maksimizasyon algoritmasına çok benziyor. Bunun gibi bir şey:

  • Tek bir gauss bileşeni (uçları modelleme)
  • Tek tip bir arka plan bileşeni (aykırı değerler)
  • Gauss genişliğine ('2 standart sapmada sınıflandır' kuralı) açık olmayan bir şekilde bağlı olan her birinin bir önceki olasılığı.
  • Beklenti adımında zor sınıflandırma.

Bu rotadan aşağı inerseniz EM algoritmaları için googling yapmaya ve modelinizde hangi varsayımları oluşturduğunuza bakmaya değer olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.