Verileriniz bilinen özelliklere sahip bilinen bir dağıtımdan geldiği sürece, dikkatsizce, gözlenen işlem tarafından yaratılması muhtemel olmayan bir olay olarak kesin olarak tanımlayabilirsiniz (eğer "zor olmadı" deyince tüm hipotez testleri).
Bununla birlikte, bu yaklaşım iki düzeyde sorunludur: Verilerin bilinen özelliklere sahip bilinen bir dağıtımdan geldiğini varsayar ve aykırı değerlerin bazı büyülü armalar tarafından belirlenen verilerinize kayan veri noktaları olarak görülmesi riskini getirir.
Büyülü veri hatalarının yokluğunda, tüm veriler denemenizden gelir ve bu nedenle aykırı değerlere sahip olmak mümkün değildir, sadece garip sonuçlar elde etmek mümkün değildir. Bunlar, kayıt hatalarından (örneğin, 4 dolarlık bir 400000 yatak odalı ev), sistematik ölçüm sorunlarından (nesne analiz sınırına çok yakınsa görüntü analiz algoritması büyük alanları bildirir), deneysel problemlerden (bazen kristaller çözeltiden çöker) ortaya çıkabilir çok yüksek bir sinyal verir) veya sisteminizin özellikleri (bir hücre bazen iki yerine üçe bölünebilir), ancak bunlar nadiren ve araştırma yaptığınız için hiç kimsenin hiç düşünmediği bir mekanizmanın sonucu olabilir. Bu, yaptığınız bazı şeylerin henüz bilinmediği anlamına gelir.
İdeal olarak, her aykırı araştırmak için zaman ayırırsınız ve yalnızca modelinize neden uymadığını anladıktan sonra veri kümenizden kaldırırsınız. Bu, zaman alıcı ve özneldir, çünkü nedenler deneye oldukça bağımlıdır, ancak alternatif daha kötüdür: Aykırı değerlerin nereden geldiğini anlamadıysanız, aykırı değerlerin sonuçlarınızı "karıştırmasına" izin verme seçeneğiniz vardır. veya anlayış eksikliğinizi gizlemek için bazı "matematiksel açıdan titiz" bir yaklaşım tanımlamak Başka bir deyişle, "matematiksel titizlik" peşinde koşarak, önemli bir etki yapmama ve cennete girmemeyi seçersiniz.
DÜZENLE
Sahip olduğunuz tek şey, nereden geldiklerini bilmeden bir sayılar listesi ise, bir veri noktasının bir outlier olup olmadığını söylemenin hiçbir yolu yoktur, çünkü her zaman tüm verinin uygun olmadığı bir dağıtımı varsayabilirsiniz.