Eğik Dağılımlarda Aykırı Değer Tespiti


24

Bir aykırı değerin klasik bir tanım olarak, alt veya üst çeyreğe ait 1.5 * IQR dışında bir veri noktası olarak çarpık olmayan bir dağılım olduğu varsayımı vardır. Eğri dağılımlar için (Üstel, Poisson, Geometrik, vb.), Asıl işlevin bir dönüşümünü analiz ederek bir aykırı saptamanın en iyi yolu nedir?

Örneğin, üstel bir dağıtım tarafından gevşek bir şekilde yönetilen dağılımlar, bir günlük işlevi ile dönüştürülebilir - bu noktada aynı IQR tanımına dayanan aykırı değerlerin aranması kabul edilebilir mi?


4
Bu sitede aykırı değerlerin değerlendirilmesiyle ilgili birçok soru var. Makul bir cevap almak için buraya eklemeniz gereken bir şey, gerçekten ne yapmaya çalıştığınızı ya da bulmaya çalıştığınız şeydir. Ancak yeni başlayanlar için, 1.5*IQRbir outlier tanımı evrensel olarak kabul edilmez. Sorunuzu kaldırın ve çözmeye çalıştığınız sorunu genişletin.
John

1.5 IQR'yi aşan bir değerin bir aykırı olduğu ifadesi saçmadır. 1.5 IQR'yi aşan veriler, sonsuz sayıda dağılımla tamamen tutarlı olacaktır ve örneklem büyüklüğü arttıkça, bu verinin aykırı değerler olmadığına dair neredeyse mükemmel bir güven olabilir.
kurtlar

Yanıtlar:


18

Bir aykırı bir veri noktası olarak klasik bir tanımlamaya göre, üst veya alt çeyreğe ait 1.5 * IQR'yi,

Bir kutudaki bıyık uçlarının dışındaki noktaları belirleme kuralı budur. Tukey, bu temelde onları outliers olarak adlandırmaya itiraz etmekten şüphelenmez (bu sınırların dışındaki noktaları outliers olarak görmezdi). Bunlar, - verilerinizin normal bir dağılıma benzer bir dağıtımdan olması bekleniyorsa - birinin daha fazla araştırmaya maruz kalabileceği (örneğin, iki basamağı çevirmediğinizin kontrolü gibi) - en çok bunlar potansiyel aykırılıklar olabilir . Nick Cox , bu cevabın altındaki yorumlarda da belirtildiği gibi , bu tür bir çok noktanın kuyruğu, bir yeniden ifadenin puanları ayraç olarak görme ihtiyacının bir göstergesinden daha uygun olabileceğinin bir göstergesi olarak daha uygun olacağının bir göstergesi olarak alınacaktır.

çarpık olmayan bir dağılım varsayımı var.

Ben çarpık olmayan 'simetrik demek' olduğunu varsaydım. Öyleyse, varsayım bundan daha fazlasıdır. Ağır kuyruklu fakat simetrik bir dağılımın , bu kuraldaki sınırların dışında birçok noktası olabilir .

Eğri dağılımlar için (Üstel, Poisson, Geometrik, vb.), Asıl işlevin bir dönüşümünü analiz ederek bir aykırı saptamanın en iyi yolu nedir?

Bu, amaçlarınız için neyin temel teşkil ettiğine bağlıdır. Her bir amaç için uygun tek bir tanım yoktur - aslında, genel olarak aykırı olanları seçip bunları atlamaktan başka şeyleri yapmamanız daha iyi olur.

Üstel veya geometrik için, bir kutu grafiğine benzer bir hesaplama yapabilirsiniz, ancak yalnızca sağ kuyruktaki benzer bir kesri tanımlar (üstel veya geometrik olarak tanımlanan düşük uç noktalara sahip olmazsınız) ... yoksa başka bir şey yapabilirsin.

Büyük örneklerde, kutu grafiği her iki uçta yaklaşık% 0.35 veya toplamda yaklaşık% 0.7 olarak işaretler. Bir üstel için, örneğin medyanın bir kaçını işaretleyebilirsiniz. Gerçek bir üstel için toplamların yaklaşık% 0,7'sini etiketlemek istiyorsanız, bu, medyanın yaklaşık 7,1 katı ötesinde bir işaretleme noktası anlamına gelir.

N = 1000 için ortanca değerinin 7.1 katı olan işaret noktaları tipik olarak değerlerin% 0,4 ile% 1,1'i arasında olacaktır:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Örneğin, üstel bir dağıtım tarafından gevşek bir şekilde yönetilen dağılımlar, bir günlük işlevi ile dönüştürülebilir - bu noktada aynı IQR tanımına dayanan aykırı değerlerin aranması kabul edilebilir mi?

Bu tamamen "kabul edilebilir" ile ne demek istediğine bağlı. Ancak şunu unutmayın -

i) Elde edilen dağılım aslında simetrik değil, açıkça çarpık.

görüntü tanımını buraya girin

Sonuç olarak, olacak genellikle sadece işareti noktaları sol ucunda onlar olmadıkça yerine ( "aşırılıkların" olabilir) sağ oranla (yani yakın sen üstel değerleri zaten olmasını bekliyoruz sıfıra kadar), gerçekten aşırı.

ii) böyle bir kuralın uygunluğu, yaptığınız işe büyük ölçüde bağlı olacaktır.

Çıkarımınızı etkileyen garip tuhaf değerden endişe ediyorsanız, genel olarak, aykırı olarak tanımlayıcıları tanımlamaktan ziyade sağlam prosedürleri kullanmaktan muhtemelen daha iyi bir durumdasınız.

Dönüştürülmüş üstel veya Poisson verileri için gerçekten normal bir kural kullanmak istiyorsanız, en azından bir Poisson için bu kökü karesine uygulamanızı öneririm (ortalama çok küçük olmadığı sürece) kabaca normalleşmeli olmalı ve üstel (ve belki de uzatma ile geometrik) için kök veya hatta dördüncü kök küplenmelidir.

veya belki de , Anscombe dönüşümünde olduğu gibiX+38

görüntü tanımını buraya girin

Üstel için, büyük örneklerde küp kök yaklaşımı yalnızca üst kuyruktaki noktaları işaret etme eğilimindedir (kabaca aynı hızda normalde üst kuyruktaki noktaları işaret eder) ve dördüncü kök yaklaşımı her iki kuyruktaki noktaları işaretler (alt kuyrukta biraz daha fazla, toplamda normalin bu oranının% 40'ına yakın bir şey). Olanaklardan, küp kökü bana diğer ikisinden daha anlamlı geliyor, ancak bunu mutlaka sert ve hızlı bir kural olarak kullanmanızı tavsiye etmem.


1
"Ağır kuyruklu fakat simetrik bir dağılım, bu kuraldaki sınırların dışında birçok noktaya sahip olabilir." IQR'da her zaman tüm puanların tam% 50'si vardır, öyle değil mi?
JulienD

2
@muraveill Aslında - ancak tartışılan kutu grafiği kuralı olan puanların% 0,7'si dışında her zaman tartışılmaz. (Q11.5×IQR,Q3+1.5×IQR)
Glen_b

@Glen_b Cevabınızdaki üstel için üst reddetme eşiği, shift parametresinin (veya teta) bilindiğini varsayar. Bence bu belirtilmeli.
user603

1
@ user603 şekliyle " üstel dağılım " (aynı zamanda bakınız buraya ) herhangi bir modifiye edici sıfat vermeden en geleneksel bir parametreli versiyonuna karşılık gelir ( "olarak kaydırılır" veya "iki-parametre" gibi). Bazı insanlar değiştirilen sürüme "üstel dağıtım" diyor, ancak bu nispeten nadir; sadece değişen lognormal dağılım "lognormal dağılım" olarak adlandırmaktan biraz daha yaygındır.
Glen_b

1
@ user603 Ah, üzgünüm, basit bir yanlış anlaşılma - bu durumda evet, önemli bir anlaşmazlığımız olduğunu düşünmüyorum - sola büyük çapta aykırı olma olasılığı yoktur, bahsettiğim yaklaşım hiç mantıklı gelmiyor . Ben sadece bu durumla ilgili herhangi bir potansiyelle uğraşmaya çalışmıyordum (ama savunmamda, OP'nin bir olasılık olarak düşündüğü gibi görünmüyordu.
Glen_b

14

Sorularınıza, sorduğunuzın tam tersi sırada cevap vereceğim, böylece fuar genelden genel olarak devam edecek.

Öncelikle, az sayıda aykırı değer dışında, verilerinizin büyük bölümünün bilinen bir dağıtım tarafından (iyi bir şekilde üstel olarak) iyi tanımlanabileceğini varsayabileceğiniz bir durumu düşünelim.

x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

xθ=0

Parametrelerin normal MLE tahmincisi [0, p 506]:

θ^=minixi

ve

σ^=aveiximinixi

İşte bir örnek R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

nın MLE değeri .2.08σ2.08

Ne yazık ki, MLE tahminleri aykırı değerlerin varlığına karşı çok hassastır. I bozuk Örneğin,% 20 yerine örnek 'ile s : - x ixixi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

maksimum olabilirlik tahmininin bozuk örneğe dayalı artık (!). Ben yozlaşmış% 20'sini değiştirerek örnek ise ikinci bir örnek olarak, 'tarafından s (ondalık basamak yanlışlıkla yanlış ise demek):11.12 x i 100 x iσ11.12xi100xi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

maksimum olabilirlik tahmininin bu ikinci bozuk örneğe dayalı artık (!).54σ54

Ham MLE'ye alternatif, (a) sağlam bir dış hat tanım kuralı kullanarak aykırı noktaları bulmak , (b) bunları sahte veri olarak bir kenara koymak ve (c) MLE'yi numunenin sahte olmayan kısmı üzerinde hesaplamaktır.

Bu sağlam dışlayıcı kimlik kuralının en bilinenleri, onu Gauss'a bağlayan Hampel [3] tarafından önerilen med / çılgın kuraldır (bu kuralı burada gösterdim ). Med / mad kuralında, reddetme eşiği, numunenizdeki gerçek gözlemlerin normal bir dağılıma iyi yaklaştığı varsayımına dayanır.

Tabii ki, eğer fazladan bilginiz varsa (örneğin, gerçek gözlemlerin dağılımının bu örnekte olduğu gibi bir poisson dağılımı ile iyi bir şekilde yaklaştığını bilmek gibi ), verilerinizi dönüştürmenizi ve ana hat dışı reddetme kuralını (örneğin med / mad) ama bu, beni bir geçici kuraldan sonra olanı korumak için verileri dönüştürmek için biraz garip hissettiriyor.

Verileri korumak ancak reddetme kurallarını uyarlamak bana çok daha mantıklı geliyor. Ardından, yukarıdaki ilk bağlantıda anlattığım 3 adımlı prosedürü kullanmaya devam edersiniz, ancak verinin iyi bir parçası olduğundan şüphelendiğiniz dağıtım için uyarlanmış reddetme eşiğiyle. Aşağıda, gerçek gözlemlerin üstel bir dağıtım tarafından iyi bir şekilde yerine oturduğu durumlarda reddetme kuralını verdim. Bu durumda, aşağıdaki kuralı kullanarak iyi bir reddetme eşiği oluşturabilirsiniz:

1) [1] kullanarak tahmin edin :θ

θ^=medixi3.476Qn(x)ln2

Qn, simetrik verilere yönelik olmayan güçlü bir dağılma tahminidir. Yaygın olarak, örneğin R paketi sağlam tabanında uygulanmaktadır . Üstel dağılımlı veriler için, Qn, tutarlılık faktörü ile3.476

2) dışındaki tüm gözlemleri sahte olarak reddetme [2, s. 188]

[θ^,9(1+2/n)medixi+θ^]

(yukarıdaki kuraldaki faktör 9, yukarıdaki Glen_b'in cevabında 7.1 olarak elde edilir, ancak daha yüksek bir kesme kullanılır. Faktör (1 + 2 / n), [2] 'deki simülasyonlarla elde edilen küçük örnek düzeltme faktörüdür. Yeterince büyük örneklem büyüklükleri için, esas olarak 1) 'e eşittir.

σ

σ^=aveiHximiniHxi

H={i:θ^xi9(1+2/n)medixi+θ^}

bu kuralı önceki örneklerde kullanarak, şunları elde edersiniz:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

σ2.2

Üçüncü örnekte:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

σ2.2

{i:iH}

Şimdi, simetrik bir dağılımın işe yaramayacağını bilmenin ötesinde gözlemlerinizin büyük kısmını karşılayacak iyi bir aday dağılımına sahip olmadığınız genel durum için, ayarlanmış kutu grafiğini kullanabilirsiniz [4]. Bu, verilerinizin çarpıklık ölçüsünü (parametrik olmayan ve dışlayıcı sağlam) ölçen bir genellemedir (böylece verilerin büyük kısmı simetrik olduğunda, normal kutu grafiğine daraltılır). Bir örnek için bu cevabı da kontrol edebilirsiniz .

  • [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Sürekli Tek Değişkenli Dağılımlar, Cilt 1, 2. Baskı.
  • [1] Rousseeuw PJ ve Croux C. (1993). Ortanca Mutlak Sapma Alternatifleri. Amerikan İstatistik Derneği Dergisi, Vol. 88, No. 424, sayfa 1273-1283.
  • [2] JK Patel, CH Kapadia ve DB Owen, Dekker (1976). İstatistiksel dağılımların el kitabı.
  • [3] Hampel (1974). Dayanıklılık Tahmininde Etki Eğrisi ve Rolü. Amerikan İstatistik Kurumu Dergisi Vol. 69, No. 346 (Jun, 1974), sayfa 383-393.
  • [4] Vandervieren, E., Hubert, M. (2004) "Eğik dağılımlar için ayarlanmış bir kutu grafiği". Hesaplamalı İstatistik ve Veri Analizi Cilt 52, Sayı 12, 15 Ağustos 2008, Sayfa 5186-5201.

1

İlk önce klasik veya başka bir tanımı sorguluyordum. Bir "outlier" şaşırtıcı bir nokta. Herhangi bir özel kuralı (simetrik dağılımlar için bile) kullanmak, özellikle günümüzde çok fazla büyük veri kümesi olduğunda hatalı bir fikirdir. Bir milyon gözlemden oluşan bir veri setinde (bazı alanlarda bu kadar büyük değil), dağılım tamamen normal olsa bile, bahsettiğiniz 1.5 IQR sınırının ötesinde birçok vaka olacaktır.

İkincisi, orijinal verilerle ilgili aykırılıkları aramanızı öneririm. Neredeyse her zaman daha sezgisel olacak. Örneğin, gelir verilerinde, günlüklerin alınması oldukça yaygındır. Ama burada bile orijinal ölçekte outliers (dolar ya da euro ya da her neyse) ararım çünkü bu rakamlar için daha iyi hissediyorum. (Günlükleri alırsanız, en azından biraz sezgisel olduğu için en azından izinsiz giriş için günlük 10 tabanını öneririm).

Üçüncüsü, aykırı noktaları ararken, maskelemeye dikkat edin.

Son olarak, Atkinson ve Riani tarafından çeşitli veri ve problemler için önerilen "ileri arama" algoritmasını araştırıyorum. Bu çok umut verici görünüyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.