Standart sapmaları kullanarak aykırı değerlerin algılanması


27

Buradaki sorumu takiben aykırı noktaları saptamak için standart sapmanın kullanımına karşı veya bunun karşısında güçlü görüşler olup olmadığını merak ediyorum (örneğin, 2 standart sapmadan daha fazlası olan herhangi bir veri noktası bir aykırıdır).

Bunun çalışmanın bağlamına bağlı olduğunu biliyorum, örneğin, 48 kg veri noktası, bebeklerin kilolarının incelenmesinde kesinlikle bir aykırı olacaktır, ancak yetişkinlerin kilolarının incelenmesinde değil.

Aykırı değerler, veri girişi hataları gibi bir dizi faktörün sonucudur. Benim durumumda, bu işlemler sağlam.

Sanırım sorduğum soru şudur: Standart sapma kullananlar aykırı değerlerin tespiti için sağlam bir yöntem midir?


1
"Benim durumumda bu işlemler sağlam" diyorsunuz. Anlamı ne? Veri girişinde hata olmadığından emin misin?
Wayne

Burada çok iyi cevaplar var, hangi cevabı kabul edeceğimi bilemiyorum! Bu konuda herhangi bir rehberlik yardımcı olacaktır
Amarald 0

Genel olarak, sorunuza en doğrudan ve açıkça cevap verdiğini düşündüğünüzü seçin ve söylemesi çok zorsa en yüksek oyu alan kişiyle giderdim. Hangisine karar vermek biraz acı verici olsa bile, cevap vermek için zaman harcayan birini ödüllendirmek önemlidir.
Wayne

1
Not: "Bu işlemler sağlamdır" derken ne demek istediğinizi bir notla netleştirebilir misiniz? Normalliğe, vb. Odaklanan cevaplar için kritik değil, ama bence biraz etkisi var.
Wayne

3
Aykırı değerler modelsiz değildir. Bir modelin altındaki alışılmadık bir aykırı başkasının altında mükemmel sıradan bir nokta olabilir. İlk soru "neden aykırı noktaları tespit etmeye çalışıyorsun?" Olmalı. (başka bir şey yapmak yerine, onlara dayanıklı kullanım yöntemleri kullanmak gibi) ve ikincisi ise “bir gözlemi sizin özel başvurunuzda bir aykırı yapan nedir?” olacaktır.
Glen_b -Reinstate Monica

Yanıtlar:


26

Bazı aykırı değerler kesinlikle imkansızdır . Bebek ağırlığı için 48 kg'dan bahsediyorsunuz. Bu açıkça bir hatadır. Bu istatistiksel bir konu değil , önemli bir konu. 48 kg insan bebeği yoktur. Herhangi bir istatistiksel yöntem böyle bir noktayı tanımlayacaktır.

Şahsen, herhangi bir teste güvenmek yerine (hatta @Michael tarafından önerildiği gibi uygun olanları bile) verileri çizerdim. Belirli bir veri değerinin (veya değerlerin) bazı varsayımsal dağılımların muhtemel olmadığının gösterilmesi, değerin yanlış olduğu anlamına gelmez ve bu nedenle değerler, aşırı olduklarından otomatik olarak silinmemelidir.

Ayrıca, önerdiğiniz kural (ortalamadan 2 SD), bilgisayarların işleri kolaylaştırmasından önceki günlerde kullanılan eski bir kuraldır. Eğer N 100,000 ise, mükemmel bir normal dağılım olsa bile, kesinlikle ortalamanın 2 SD'den büyük bir kaç değer beklediğiniz kesin.

Peki ya dağıtım yanlışsa? Popülasyonunda, söz konusu değişken olup, varsayalım değil normal dağılıma sahip ancak daha ağır kuyrukları vardır?


1
Bebek ağırlığının mümkün olduğunu düşündüğünüz en büyük değer nedir?
mark999

2
Bilmiyorum. Ancak biri rekoru araştırabilir. Answer.com'a göre (hızlı bir google’dan), gigantism ile iki ebeveyni olarak doğan 23.12 pound idi. Araştırmayı yapıyor olsaydım, daha fazlasını kontrol ederdim.
Peter Flom - Eski Monica

Birisi verileri görsel olarak kontrol
edemezse

Bir şekilde otomasyona grafikler ekleyin.
Peter Flom - Eski Monica

24

Evet. Oultiers "tespit" etmek için kötü bir yoldur. Normal olarak dağıtılmış veriler için, böyle bir yöntem, mükemmel olan (ancak aşırı uç) gözlemlerin% 5'ini “aykırı” olarak adlandırır. Ayrıca n boyutuna sahip bir örneğiniz varsa ve bunları outliers olarak adlandırmak için aşırı yüksek veya düşük gözlemler ararken, gerçekten aşırı sıradaki istatistiklere bakıyorsunuzdur. Normal olarak dağıtılmış bir numunenin maksimum ve minimum değerleri normal olarak dağılmaz. Bu yüzden test aşırı uçların dağılımına dayanmalıdır. Grubbs testi ve Dixon’ın oran testi daha önce de bahsettiğim gibi yaptı. Aykırı değerler için uygun bir test kullansanız bile, gözlem olağan dışı aşırı olduğu için reddedilmemelidir. Aşırı gözlemin neden ilk gerçekleştiğini araştırmalısınız.


1
H0 değerini reddetmek kadar düşük p-değerine dayanan kadar "kötü".
Leo

16

Potansiyel bir avukatın ortalamadan kaç standart sapma olduğunu sorduğunuzda, dış hattın kendisinin SD'yi yükselteceğini ve aynı zamanda ortalamanın değerini de etkileyeceğini unutmayın. N değerine sahipseniz, SD'ye bölünen ortalamaya olan mesafenin oranı asla (N-1) / sqrt (N) değerini aşamaz. Bu en önemlisi, minik örneklerle en önemlisidir. Örneğin, N = 3 ise, hiçbir aykırı ortalamadan 1.155 * SD'den daha fazla olamaz, bu nedenle herhangi bir değerin ortalamadan 2 SD'den daha fazla olması mümkün değildir. (Bu, tabii ki, elinizdeki verilerden örnek SD'yi hesapladığınızı ve popülasyon SD'sini bilmek için teorik bir nedeniniz olmadığını varsayar).

Grubbs testi için kritik değerler bunu hesaba katarak hesaplandı ve bu nedenle örneklem büyüklüğüne bağlı olarak hesaplandı.


12

Bence bağlam her şeydir. Verilen örnek için, evet, açıkça 48 kg bebek hatalı ve 2 standart sapma kullanılması bu durumu yakalayacaktır. Bununla birlikte, 2 standart sapma (veya herhangi bir diğer SD çoklu) kullanımının diğer veriler için uygun olduğunu düşünmek için hiçbir neden yoktur. Örneğin, yüzey sularındaki pestisit kalıntılarına bakıyorsanız, 2 standart sapmanın ötesindeki veriler oldukça yaygındır. Bu özellikle yüksek değerler, yağmur olaylarından, son pestisit uygulamalarından vb. Dolayı olduğu gibi ortalamadan uzak olsalar bile “aykırı değerler” değildir. Tabii ki, diğer “kurallar” da oluşturabilirsiniz (neden 1.5 × değil? SD veya 3.1415927 × SD?) Fakat açıkçası bu tür kuralların savunması zordur ve başarıları veya başarısızlıkları incelemekte olduğunuz verilere bağlı olarak değişecektir. Öznelliğe rağmen yargı ve mantık kullanmayı düşünüyorum, keyfi bir kural kullanmaktansa, aykırı olanlardan kurtulmak için daha iyi bir yöntemdir. Bu durumda, 48 kg dış hat saptamasını tespit etmek için 2 × SD'ye ihtiyacınız yoktu - gerekçe gösterebildiniz. Bu üstün bir yöntem değil mi? Sebep olamayacağınız durumlar için, keyfi kurallar daha iyi midir?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.