Bir aykırı değer için Box ve Whisker Plot tanımının temeli nedir?


17

Bir Kutu ve Bıyık grafiği için bir aykırı standart tanımı aralığının dışındaki noktalardır ; burada ve ilk çeyrek ve verinin üçüncü çeyreğidir.{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

Bu tanımın temeli nedir? Çok sayıda nokta ile mükemmel bir normal dağılım bile aykırı değerlere geri döner.

Örneğin, diziyle başladığınızı varsayalım:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Bu dizi 4000 puanlık bir veri yüzdesi oluşturur.

qnormBu serinin için normalliği test etmek şöyle sonuçlanır:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Sonuçlar tam olarak beklendiği gibidir: normal dağılımın normalliği normaldir. Bir Oluşturma qqnorm(qnorm(xseq))(beklendiği gibi) verilerin düz bir çizgi oluşturur:

qqnorm veri grafiği

Aynı verilerin bir kutu grafiği oluşturulursa, boxplot(qnorm(xseq))sonuç oluşturulur :

verinin kutu grafiği

Kutu boyutu, aksine shapiro.test, ad.testveya örnek boyutu yeterince büyük olduğunda (bu örnekte olduğu gibi) birkaç noktayı aykırı olarak qqnormtanımlar .


"temel" ile ne demek istiyorsun? Bu bir tanım ve hiç kimse mükemmel normal dağılımın aykırı değerleri olmadığını söylüyor
Haitao Du

2
@ hxd1011, dağılımın tanımı kendiliğinden aykırı olamaz. Bir kutu ve bıyık grafiğindeki aykırı değerleri test etmek için kullanılan bu tanım, test etmek / test etmek / sonucu sağlamak için test / temel almaktır.
Tavrock

Kutu ve bıyık aykırı tanımı sadece bazı sezgisel tarama olduğunu düşünüyorum ... Ayrıca, dağıtımın tanımı neden kendinden bir aykırı olamaz?
Haitao Du

3
Hangi kuralı seçtiğiniz önemli değil, "çok sayıda nokta, hatta normal bir dağılım bile aykırı değerlerle" der. [Normal bir dağılımdan örnek alırsanız herhangi bir noktayı reddedemeyen aykırı değerleri tanımlamak için bir yol
bulmaya çalışın

1
Çok tekrarlanan bir fıkra, bu başparmak kuralını ortaya çıkaran John Tukey'e neden 1.5; ve 1'in çok az ve 2'nin çok fazla olacağını söyledi. Bir şekilde kesin, oracular bir kriter olarak yanlış gördüğümü düşündüğümde, onun solması için çok mutlu olurum. Şimdi hepimiz tüm verileri gösterebilecek bilgisayarlarımız var!
Nick Cox

Yanıtlar:


25

kutudiyagramlar

İşte Hoaglin, Mosteller ve Tukey'den (2000) ilgili bir bölüm : Sağlam ve Keşif Verileri Analizini Anlama. Wiley . John D. Emerson ve Judith Strenio tarafından yazılan Bölüm 3, "Kutu Çizgileri ve Parti Karşılaştırması" (sayfa 62):

[...] Uç değerlerin küçük veri değerleri olarak tanımlanması FL32dFFU+32dF

FLFUdFFUFL

Devam ediyorlar ve uygulamayı Gausslu bir nüfusa gösteriyorlar (sayfa 63):

0100.67450.67451.34943322.02352±2.69822399.3%

Yani

0.7%

Ayrıca, yazarlar

[...] Böylece verilerimizin Gaussian'dan daha ağır kuyruklu görünüp görünmediğini, dışa dönük kesintilerin ötesine kaç puan düştüğüne karar verebiliriz. [...]

Aykırı değerlerin dışında kalan değerlerin beklenen oranını içeren bir tablo sağlarlar ("Toplam% Çıkış" etiketli):

Tablo 3-2

Yani bu kesikler asla hangi veri noktalarının aykırı olup olmadığı konusunda katı bir kural olmayı amaçlamamıştır. Belirttiğiniz gibi, mükemmel bir Normal dağılımın bile bir kutu grafikte "aykırı değer" göstermesi beklenir.


Aykırı

Bildiğim kadarıyla, evrensel olarak kabul edilmiş bir aykırı tanım yoktur. Ben Hawkins (1980) tanımı gibi:

Bir aykırı değer, farklı bir mekanizma tarafından yaratıldığı şüphelerini uyandırmak için diğer gözlemlerden çok sapan bir gözlemdir.

İdeal olarak, veri noktalarını yalnızca verilerin geri kalanına neden ait olmadıklarını anladıktan sonra aykırı değerler olarak ele almalısınız . Basit bir kural yeterli değildir. Aykırı değerlerin iyi bir tedavisi Aggarwal'da (2013) bulunabilir.

Referanslar

Aggarwal CC (2013): Aykırı Analiz. Springer.
Hawkins D (1980): Aykırı Değerlerin Belirlenmesi. Chapman ve Hall.
Hoaglin, Mosteller ve Tukey (2000): Sağlam ve Keşifsel Veri Analizini Anlama. Wiley.


7

'Aykırı değer' kelimesinin genellikle 'hatalı, yanıltıcı, yanlış veya kırılmış ve dolayısıyla analizden çıkarılması gereken bir veri değeri' anlamına geldiği varsayılır, ancak Tukey aykırı değeri kullanmasıyla bu anlama gelmez. Aykırı değerler, veri kümesinin medyanından uzun bir yol olan noktalardır.

Birçok veri kümesinde aykırı değer beklemeye ilişkin noktanız doğru ve önemlidir. Ve konuyla ilgili birçok iyi soru ve cevap var.

Aykırı değerleri asimetrik verilerden kaldırma

Sorunlara neden oldukları için aykırı değerleri tanımlamak ve kaldırmak uygun mudur?


2

Tüm aykırı tespit yöntemlerinde olduğu gibi, hangi değerlerin gerçekten aykırı olduğunu belirlemek için özen ve düşünce kullanılmalıdır. Ben boxplot sadece veri yayılması iyi bir görselleştirme sağlar ve herhangi bir gerçek aykırı yakalamak kolay olacak düşünüyorum.


0

Normal dağılımın bir parçası olarak bazı aykırı değerler almamanız durumunda endişelenmeniz gerektiğini düşünüyorum, aksi takdirde hiç bir neden olmadığını düşünmelisiniz. Açıkçası, kayıt hataları olmadıklarından emin olmak için gözden geçirilmelidirler, aksi takdirde beklenmelidirler.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.