Aykırı değerleri tespit etmek için IQR ne kadar doğrudur


11

İşlemlerin çalışma sürelerini analiz eden bir komut dosyası yazıyorum. Onların dağıtım emin değilim ama bir sürecin "çok uzun" çalışır olmadığını bilmek istiyorum. Şimdiye kadar son çalışma sürelerinin 3 standart sapmasını kullanıyorum (n> 30), ancak veriler normal değilse (ki bu görünmüyorsa) bunun yararlı bir şey sağlamadığı söylendi. Belirten başka bir aykırı test buldum:

QQ üçüncü çeyrek ve Q1 ilk çeyrek olan IQR = Q3 - Q1 olan çeyrekler arası aralığı bulun. Ardından şu iki sayıyı bulun:

a) Q1 - 1.5 * IQR b) Q3 + 1.5 * IQR

<A veya> b ise nokta bir aykırı değerdir

Verilerim 2sec, 3sec, 2sec, 5sec, 300sec, 4sec, .... gibi şeylerdir. Burada 300sec açıkça bir aykırı değerdir.

Hangi yöntem daha iyi? IQR yöntemi mi yoksa std sapma yöntemi mi?


4
@ User603'ün cevabını buradan kontrol etmek isteyebilirsiniz: poisson dağıtılmış veriler için eğri veriler için bu kuralın nasıl ayarlanacağı hakkında bilgi için bir boxplot varyantı var mı ?
gung - Monica'yı eski durumuna getirin

3
Bu "IQR" yönteminin asla körü körüne uygulanması amaçlanmamıştır. Keşifsel veri analizi sürecinin bir parçasıdır (cevabında Nick Cox tarafından tarif edildiği gibi), bu sırada verileri yaklaşık olarak simetrik olarak dağıtmak için yeniden ifade etmenin bir yolunu bulacaksınız.
whuber

2
Cevaplara yaptığınız yorumlara dayanarak, doğru cevap "ikisi de" değildir, çünkü temel endişeniz aykırı değerlerle ilgili değildir, bu süreçle ilgilidir.
whuber


Sayılar zamana göre verilmiştir, böylece bir şekilde yeniden ölçeklendirmedikçe asla simetrik olmazlar.
JP Bennett

Yanıtlar:


14

Gerçekten aykırı değerlerin tüm kitapları var.

Her zamanki özel cevap, standart sapmanın aykırı değerlerle yukarı çekilmesidir, bu nedenle SD'ye dayanan herhangi bir kural kötü performans gösterebilir.

Teklif ettiğiniz çeyrekler +/- 1.5 IQR ile ilgili Tukey kuralları, 1970'lerde küçük ve orta boyutlu veri kümeleriyle el işçiliğinden çıktı ve ayrı ayrı düşünmek isteyebileceğiniz değerleri göstermek için tasarlandı. Çok daha büyük veri kümelerine taşıdıkları veya kayda değer bir çarpıklık beklediğinizde geçerli oldukları açık değildir.

Daha genel bir cevap, her zaman doğru kararlar verirse, daha üstün bir kuralın iyi olduğudur, ancak nasıl anlayabilirsiniz?

Bu çekişmeli bir bölge, ama ben bir aykırı bir grafik diğerlerinden çok farklı olarak dışarı sopa beklenir. Ancak, genellikle (genellikle?) Ağır kuyruklu bir dağıtımda beklediğiniz ve bir aykırı olarak kabul edilemeyecek kadar vahşi olan arasındaki farkı söylemek zor bir çağrıdır. Bazen dönüşüm, bir aykırı değeri daha sıradan bir hale getirir.

Ayrıca, sağlam yöntemler kullanırsanız, hangi değerlerin aykırı değer olarak adlandırılmayı hak ettiği konusunda genel olarak biraz daha az endişelenebilirsiniz.


1

Dağıtımdan emin olmadığınızı söylüyorsunuz, ancak devam eden işlemlerin toplanması ve dağıtım için değerlendirilmesi kolaydır. Sadece birkaç kez kaydedin ve bunları analiz edin. Gönderdiğiniz saatler göz önüne alındığında, birkaç saat içinde çok şey alabilirsiniz.

Bir aykırı değer kuralı aramanızın genel olması gerekmez. Görevinize özgü olabilir. Çok fazla veri toplayabilirsiniz. Toplayın, inceleyin ve bir sürecin ne kadar uzun olduğuna karar verin. Belki bir IQR tabanlı yaklaşım işe yarayacaktır, ancak simülasyonlar yapmak ve iyi çalışıp çalışmadığını görmek için veri kümenizi veya bir parametrik uyumu kullanabilirsiniz. Aynı şey SD için de geçerli. Sadece 50 yaşın üzerinde çok uzun olabilir ve tek ihtiyacınız olan bu.


Birkaç süreçte veri topluyorum. Her birinin farklı dağılımları olabilir. Teknisyenlerin olaylara daha fazla bakmaları konusunda uyarmak için "çalışma süresi çok büyük" demenin basit bir yoluna ihtiyacım var. İşaretlenmesi gereken şeyleri işaretlediği sürece genel olabilir. Birkaç yanlış pozitif ortaya çıkarsa, öyle olsun. Ancak yanlış pozitifler minimumda tutulmalıdır, çünkü çok fazla varsa betiğin amacını bozar ve sadece tüm sonuçları dökmeliyim ve tekniklerin buna sahip olmasına izin vermeliyim. Senaryonun amacı "şeyleri daraltmak"
chris bedd

İşlemlerin aynı mı yoksa farklı mı olduğunu değerlendirebilirsiniz. Gerçekten çok farklılarsa, bazı genel kurallar uyarının gereğinden fazla sık tetiklenmesi için belirli bir sürece neden olabilir. Bu bilgi gerçekten sorunuz olmalıdır.
John

3
Bu sorunu aykırı bir arayış olarak nitelendiren chris, haksızlık yapar: aslında bir kalite kontrol problemiyle uğraşıyorsunuz . Temel ayrımlar (1) analiz etmek için statik bir veri kümesinden ziyade sürekli bir veri akışınız var ve (2) her bir analiz sonucunda yapılacak periyodik eylemleri belirtmeyi planlıyorsunuz: yani, müdahale edip etmeme (ve (iyileştirme) veya değil (ve işlemin olduğu gibi çalışmasına izin ver) Bunun probleminizin doğası olduğunu anlamak, kalite kontrolü hakkındaki büyük literatürün alakalı olduğunu ve zengin bir çözüm yelpazesi sunduğunu göstermektedir.
whuber

+1 @whuber. Aykırı değerler burada geçerli değildir. Ne ortalama çalışma süresi ne de herhangi bir yüzdelik dilimi, "çok uzun" olanla ilişkili değildir. Neyin "çok uzun" olduğunu bulmanın yolu, kullanıcıların bir anketi veya mühendislerle bir kontrol veya pantolonun tahmin ettiği koltuk ya da başka bir şey olabilir, ancak bu istatistiksel bir soru değildir.
Peter Flom
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.