İşaretleme outliers bir yargılama çağrısı değildir (veya herhangi bir durumda bir olması gerekmez). İstatistiksel bir model göz önüne alındığında, aykırı değerlerin kesin ve nesnel bir tanımı vardır: Verilerin çoğunluğunun şeklini takip etmeyen gözlemlerdir . Bu gözlemlerin herhangi bir analizin başlangıcında birbirinden ayrılması gerekir, çünkü verilerin büyüklüğüne olan mesafeleri, maksimum olasılıkla (ya da başka herhangi bir dışbükey kayıp fonksiyonuyla) takılan çok değişkenli bir model üzerinde orantısız bir çekiş yapmalarını sağlar.
İşaret etmek önemli olduğu, çok değişkenli aykırı ler sadece güvenilir bir en az kare uyum (veya ML tahmin başka bir modele, ya da başka bir dışbükey kaybı işlevi) gelen artıklar ile tespit edilemez. Basitçe söylemek gerekirse, çok değişkenli aykırı değerler yalnızca, kendileri tarafından sallanmaya yatkın olmayan bir tahmin prosedürü kullanılarak donatılmış bir modelden artıkları kullanılarak güvenilir bir şekilde tespit edilebilir.
Aykırı olanların gerekli olacağı inancı, klasik bir uyumun kalıntılarında göze çarpacak, p-değerlerini delil ölçüsü olarak yorumlamak ya da önyargılı bir örneklemden bir popülasyona ilişkin çıkarımı çekmek gibi istatistiki no-no'ların borçlandırılması gibi başka bir yerde duruyor. Bu bir iyi çok daha eski olabileceğini belki hariç: Gauss kendisi böyle gürültülü gözlemlerinden normal dağılımın parametrelerini tahmin etmek ortanca ve (yerine klasik ortalama ve standart sapmalarının) deli olarak sağlam tahmincisi kullanımını tavsiye (hatta gidiş deli tutarlılık faktörü türetme kadar (1)).
Gerçek verilere dayalı basit bir görsel örnek vermek için, rezil CYG yıldız verilerini düşünün . Buradaki kırmızı çizgi, en az kare uyumu, sağlam bir doğrusal regresyon uyumu kullanarak elde edilen mavi çizgiyi göstermektedir. Buradaki sağlam uyum, aykırı olanları tespit etmek için kullanılabilecek LS uyumuna alternatif olan FastLTS (2) uyumudur (çünkü herhangi bir gözlemin tahmin edilen katsayı üzerindeki etkisinin sınırlandırılmasını sağlayan bir tahmin prosedürü kullanır). Üretilecek R kodu:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
İlginç bir şekilde, soldaki 4 gözlem, LS uyumu ile ilgili en büyük kalıntılara ve LS uyumu artıklarının QQ arsalarına (veya Cook'un uzaklığı veya dfbeta) bunların hiçbirini problemli olarak gösteremedi. Bu aslında bir normdur: LS tahminlerini aykırı değerlerin bir arsada öne çıkmayacağı şekilde çekmek için (örneklem büyüklüğüne bakılmaksızın) ikiden fazla ayraç gerekmemektedir. Buna maskeleme etkisi denirve iyi belgelenmiştir. Belki de CYGstars veri setiyle ilgili dikkate değer tek şey iki değişkenli olmasıdır (dolayısıyla sağlam uyumun sonucunu doğrulamak için görsel incelemeyi kullanabiliriz) ve soldaki bu dört gözlemin neden bu kadar anormal olduğuna dair iyi bir açıklama olduğu.
Bu, btw, kuraldan çok istisnadır: küçük örnekleri ve az değişkenleri içeren küçük pilot çalışmalar dışında ve istatistiksel analizi yapan kişinin de veri toplama sürecine dahil olduğu durumlar dışında, daha önce bu konudaki inançların olduğu bir durum yaşamamıştım. aykırıların kimliği aslında doğruydu. Bu arada, doğrulaması kolay sessiz. Aykırı değerlerin bir aykırı algılama algoritması veya araştırmacıların bağırsak hissi kullanılarak tanımlanıp tanımlanmadığına bakılmaksızın, aykırı değerler, bir LS uyumundan elde edilen katsayılar üzerinde anormal bir kaldıraç (veya 'çekme') olan tanım gözlemleridir. Başka bir deyişle, aykırı değerler, numuneden çıkarılmasının LS uyumunu ciddi şekilde etkilemesi gereken gözlemlerdir.
Bunu kişisel olarak hiç deneyimlememiş olmama rağmen, literatürde bir outlier algılama algoritması tarafından outliers olarak işaretlenen gözlemlerin kaba hatalar olduğu veya farklı bir işlem tarafından üretildiği tespit edilen bazı iyi belgelenmiş durumlar vardır. Her durumda, bilimsel olarak garanti edilmez veya yalnızca bir şekilde anlaşılması veya açıklanması durumunda outliers'ı çıkarmak akıllıca değildir. Küçük bir gözlem kabilesi, verilerin ana gövdesinden şimdiye kadar çıkarılırsa, istatistiksel bir prosedürün sonuçlarını tek başına elle çekebiliyorsa, başlı başına bir işlem yapıp yapmamasına bakılmaksızın akıllıca davranmak akıllıca olur (ve doğal olabilir) Bu veri noktaları diğer alanlarda da şüpheli görünmüyor.
(1): bkz. Stephen M. Stigler, İstatistiklerin Tarihi: 1900'den Önce Belirsizlik Ölçümü.
(2): Büyük Veri Kümeleri için LTS Regresyonunun Hesaplanması (2006) PJ Rousseeuw, K. van Driessen.
(3): Yüksek Dağılma Dayanıklı Çok Değişkenli Yöntemler (2008). Hubert M., Rousseeuw PJ ve Van Aelst S. Kaynak: İstatistikçi. Sci. Cilt 23, 92-119.