Sorularınıza, sorduğunuzın tam tersi sırada cevap vereceğim, böylece fuar genelden genel olarak devam edecek.
Öncelikle, az sayıda aykırı değer dışında, verilerinizin büyük bölümünün bilinen bir dağıtım tarafından (iyi bir şekilde üstel olarak) iyi tanımlanabileceğini varsayabileceğiniz bir durumu düşünelim.
x
pX( x ) = σ- 1exp ( - ( x - θ )σ) ,x > 0 ; σ> 0
xθ = 0
Parametrelerin normal MLE tahmincisi [0, p 506]:
θ^= minbenxben
ve
σ^= avebenxben- minbenxben
İşte bir örnek R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
nın MLE değeri .≈ 2.08σ8 2.08
Ne yazık ki, MLE tahminleri aykırı değerlerin varlığına karşı çok hassastır. I bozuk Örneğin,% 20 yerine örnek 'ile s : - x ixben- xben
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
maksimum olabilirlik tahmininin bozuk örneğe dayalı artık
(!). Ben yozlaşmış% 20'sini değiştirerek örnek ise ikinci bir örnek olarak, 'tarafından s (ondalık basamak yanlışlıkla yanlış ise demek):≈ 11.12 x i 100 x iσ.12 11.12xben100 xben
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
maksimum olabilirlik tahmininin bu ikinci bozuk örneğe dayalı artık
(!).≈ 54σ≈54
Ham MLE'ye alternatif, (a) sağlam bir dış hat tanım kuralı kullanarak aykırı noktaları bulmak , (b) bunları sahte veri olarak bir kenara koymak ve (c) MLE'yi numunenin sahte olmayan kısmı üzerinde hesaplamaktır.
Bu sağlam dışlayıcı kimlik kuralının en bilinenleri, onu Gauss'a bağlayan Hampel [3] tarafından önerilen med / çılgın kuraldır (bu kuralı burada gösterdim ). Med / mad kuralında, reddetme eşiği, numunenizdeki gerçek gözlemlerin normal bir dağılıma iyi yaklaştığı varsayımına dayanır.
Tabii ki, eğer fazladan bilginiz varsa (örneğin, gerçek gözlemlerin dağılımının bu örnekte olduğu gibi bir poisson dağılımı ile iyi bir şekilde yaklaştığını bilmek gibi ), verilerinizi dönüştürmenizi ve ana hat dışı reddetme kuralını (örneğin med / mad) ama bu, beni bir geçici kuraldan sonra olanı korumak için verileri dönüştürmek için biraz garip hissettiriyor.
Verileri korumak ancak reddetme kurallarını uyarlamak bana çok daha mantıklı geliyor. Ardından, yukarıdaki ilk bağlantıda anlattığım 3 adımlı prosedürü kullanmaya devam edersiniz, ancak verinin iyi bir parçası olduğundan şüphelendiğiniz dağıtım için uyarlanmış reddetme eşiğiyle. Aşağıda, gerçek gözlemlerin üstel bir dağıtım tarafından iyi bir şekilde yerine oturduğu durumlarda reddetme kuralını verdim. Bu durumda, aşağıdaki kuralı kullanarak iyi bir reddetme eşiği oluşturabilirsiniz:
1) [1] kullanarak tahmin edin :θ
θ^′=medixi−3.476Qn(x)ln2
Qn, simetrik verilere yönelik olmayan güçlü bir dağılma tahminidir. Yaygın olarak, örneğin R paketi sağlam tabanında uygulanmaktadır . Üstel dağılımlı veriler için, Qn, tutarlılık faktörü ile≈3.476
2) dışındaki tüm gözlemleri sahte olarak reddetme [2, s. 188]
[θ^′,9(1+2/n)medixi+θ^′]
(yukarıdaki kuraldaki faktör 9, yukarıdaki Glen_b'in cevabında 7.1 olarak elde edilir, ancak daha yüksek bir kesme kullanılır. Faktör (1 + 2 / n), [2] 'deki simülasyonlarla elde edilen küçük örnek düzeltme faktörüdür. Yeterince büyük örneklem büyüklükleri için, esas olarak 1) 'e eşittir.
σ
σ^′=avei∈Hxi−mini∈Hxi
H={i:θ^′≤xi≤9(1+2/n)medixi+θ^′}
bu kuralı önceki örneklerde kullanarak, şunları elde edersiniz:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈2.2
Üçüncü örnekte:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈2.2
{i:i∉H}
Şimdi, simetrik bir dağılımın işe yaramayacağını bilmenin ötesinde gözlemlerinizin büyük kısmını karşılayacak iyi bir aday dağılımına sahip olmadığınız genel durum için, ayarlanmış kutu grafiğini kullanabilirsiniz [4]. Bu, verilerinizin çarpıklık ölçüsünü (parametrik olmayan ve dışlayıcı sağlam) ölçen bir genellemedir (böylece verilerin büyük kısmı simetrik olduğunda, normal kutu grafiğine daraltılır). Bir örnek için bu cevabı da kontrol edebilirsiniz .
- [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Sürekli Tek Değişkenli Dağılımlar, Cilt 1, 2. Baskı.
- [1] Rousseeuw PJ ve Croux C. (1993). Ortanca Mutlak Sapma Alternatifleri. Amerikan İstatistik Derneği Dergisi, Vol. 88, No. 424, sayfa 1273-1283.
- [2] JK Patel, CH Kapadia ve DB Owen, Dekker (1976). İstatistiksel dağılımların el kitabı.
- [3] Hampel (1974). Dayanıklılık Tahmininde Etki Eğrisi ve Rolü. Amerikan İstatistik Kurumu Dergisi Vol. 69, No. 346 (Jun, 1974), sayfa 383-393.
- [4] Vandervieren, E., Hubert, M. (2004) "Eğik dağılımlar için ayarlanmış bir kutu grafiği". Hesaplamalı İstatistik ve Veri Analizi Cilt 52, Sayı 12, 15 Ağustos 2008, Sayfa 5186-5201.
1.5*IQR
bir outlier tanımı evrensel olarak kabul edilmez. Sorunuzu kaldırın ve çözmeye çalıştığınız sorunu genişletin.