Aykırı değerleri tespit etmenin basit bir yolu var mı?


14

Aykırı değerleri tespit etmenin basit bir yolu olup olmadığını merak ediyorum.

Temel olarak, katılımcıların bir hafta içinde fiziksel aktiviteye katılma sayısı ile bir hafta içinde ev dışında yemek yeme sayısı (fast food) arasında bir korelasyon olan bir projem için, bir dağılım grafiği çizdim ve kelimenin tam anlamıyla aşırı veri noktaları. (Dağılım grafiği negatif bir korelasyon gösterdi.)

Bu, değer yargısına dayanıyordu (bu veri noktalarının açıkça aşırı olduğu dağılım grafiğine dayanarak). Hiçbir istatistiksel test yapmadım.

Sadece bunun aykırı değerlerle başa çıkmanın sağlam bir yolu olup olmadığını merak ediyorum.

350 kişiden verilerim var, yani 20 veri noktasının kaybı benim için endişe etmiyor.


Benzer bir soruya da cevaplar bir aykırı tanımlayıcı titiz tanımı
Jonas

3
Ayrıca çok yakından ilişkili olan stats.stackexchange.com/questions/175 . Birçok potansiyel aykırı tespit yöntemi, stats.stackexchange.com/questions/213 adresindeki yanıtlarda açıklanmaktadır . Ama daha da önemlisi bir bağlam olurdu : bu dağılım grafiğiyle ne yapıyorsun? Bundan ne gibi sonuçlar çıkarmaya çalışıyorsunuz? Bazı sonuçlar aykırı değerlerle ne yaptığınıza çok az bağlıyken diğerleri eleştirel olabilir. Bu, aykırı değerleri tanımlamak ve tedavi etmek için kullandığınız yöntemlerin amaçlanan analize bağlı olması gerektiğini gösterir.
whuber

Ekonomi veri kümelerinde standart uygulama sadece "Veri kümesini% 2.5 ve% 97.5'te röportaj yapıyoruz" veya alternatif olarak% 1 ve% 99 demek. Sonra sadece o kantil aralığın dışındaki gözlemleri silerler.

@Harokitty Winsorising , değerleri atmak yerine kırpmak anlamına geliyor.
Peter Wood

Ayrıca, veri kaydındaki herhangi bir hata dışında, dağılmış çizimin düzenlenmemesini de tavsiye ederim. Bir veya daha fazla ek farklı popülasyon olabilir. Bir exampe için aşağıdaki adreste Hertzsprung-Russell diyagramı için Vikipedi girişine bakın en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

Yanıtlar:


21

Aykırı değerleri çıkarmanın basit bir ses yolu yoktur. Aykırı değerler iki çeşit olabilir:

1) Veri giriş hataları. Bunlar genellikle en kolay ve her zaman başa çıkmak için en kolay olanlardır. Doğru verileri bulabilirseniz düzeltin; değilse, silin.

2) Olağandışı meşru veriler. Bu çok daha hileli. Sizinki gibi iki değişkenli veriler için aykırı değer tek değişkenli veya iki değişkenli olabilir.

a) Tek değişkenli. İlk olarak, "olağandışı" dağılım ve numune boyutuna bağlıdır. Bize 350 örnek büyüklüğünü veriyorsunuz, fakat dağılım nedir? Açıkça normal değil, çünkü nispeten küçük bir tamsayı. Bir Poisson altında olağandışı olan şey negatif bir binom altında olmaz. Sıfır şişirilmiş negatif bir binom ilişkisinden şüphelenirim.

Ancak, dağıtımınız olsa bile, (olası) aykırı değerler parametreleri etkileyecektir. Veri noktası q'nun, verilerin q dışında tüm noktalara sahip olup olmadığını outlier olup olmadığını kontrol ettiğiniz "dışarıda bir çıkış" dağılımlarına bakabilirsiniz. O zaman bile, birden fazla aykırı değer varsa?

b) İki değişkenli. Bu, her iki değişkenin değerinin kendi içinde olağandışı olduğu, ancak birlikte tuhaf oldukları yerdir. Nüfus sayımının bir zamanlar ABD'de 20.000 12 yaşındaki dul olduğunu söylediğine dair muhtemelen apocryphal raporu var. 12 yaşındakiler sıra dışı değil, dullar da değil, 12 yaşında dullar.

Tüm bunlar göz önüne alındığında, sağlam bir ilişki ölçüsü bildirmek daha kolay olabilir.


Teşekkürler. Belki de güven elipsinin, (iki değişkenli normal dağılım göz önüne alındığında) belirli bir güven düzeyi içinde olacak veri yüzdesini göstereceğinden aykırı değerlerin iyi bir göstergesi olacağını düşünüyorum.
Amarald

Negatif olmayan tamsayılardan oluştuğu için verileriniz iki değişkenli normal olamaz
Peter Flom - Reinstate Monica

18

Özellikle 1978'den 1980'e kadar Oak Ridge'de enerji verisi doğrulaması üzerinde çalışırken, aykırı değerler üzerine çok fazla araştırma yaptım. Normal veriler için tek değişkenli aykırı değerler için resmi testler var (örneğin Grubbs testi ve Dixon oranı testi). Çok değişkenli aykırı değerler ve zaman serileri için testler vardır. Barnett ve Lewis'in "İstatistiki Verilerdeki Aykırı Değerler" adlı kitabı aykırı değerlerin incisidir ve hemen her şeyi kapsamaktadır.

Oak Ridge'de veri doğrulama üzerinde çalışırken büyük çok değişkenli veri setlerimiz vardı. Tek değişkenli aykırı değerler için aşırılıklar için bir yön vardır (ortalamanın çok üzerinde ve ortalamanın çok altında). Ancak çok değişkenli aykırı değerler için aykırı değerlere bakmak için birçok yön vardır. Felsefemiz, verilerin amaçlanan kullanımının ne olduğunu düşünmekti. İki değişkenli korelasyon veya regresyon katsayısı gibi belirli parametreleri tahmin etmeye çalışıyorsanız, ilgilenilen parametre üzerinde en büyük etkiyi sağlayan yöne bakmak istersiniz. O zamanlar Mallows'un etki fonksiyonları hakkındaki yayınlanmamış makalesini okumuştum. Aykırı değerleri tespit etmek için etki fonksiyonlarının kullanımı Gnanadesikan'ın çok değişkenli analiz kitabında ele alınmıştır. Tabii ki Barnett ve Lewis'te de bulabilirsiniz.

Bir parametrenin etki fonksiyonu, gözlemlerin çok değişkenli boşluğundaki noktalarda tanımlanır ve temelde veri noktası dahil edildiğinde parametre tahmini arasındaki farkı, kaldığı zamana kıyasla ölçer. Her bir numune noktası ile bu tür tahminler yapabilirsiniz, ancak genellikle etki ve daha hızlı hesaplama sağlayan etki fonksiyonu için güzel bir fonksiyonel form elde edebilirsiniz.

Örneğin 1982 Amerikan Matematiksel ve Yönetim Bilimleri Dergisi'nde yer alan makalemde "Etki Fonksiyonu ve Veri Validasyonuna Uygulanması" İki değişkenli korelasyon için etki fonksiyonu ve sürekli etki kontürlerinin hiperbol olduğu analitik formülü gösteriyorum. Böylece konturlar düzlemde etki fonksiyonunun en hızlı arttığı yönü gösterir.

Makalemde, enerji üretimi ve tüketimi konusunda FPC Form 4 verileri ile iki değişkenli korelasyon için etki fonksiyonunu nasıl uyguladığımızı göstereceğim. İkisi arasında açık bir yüksek pozitif korelasyon vardır ve korelasyonun tahmininde oldukça etkili olan birkaç aykırı değer bulduk. Daha fazla araştırma, noktalardan en az birinin hatalı olduğunu ve bunu düzeltebildiğimizi gösterdi.

Ancak aykırı değerleri tartışırken her zaman bahsettiğim önemli bir nokta, otomatik reddetmenin yanlış olduğudur. Aykırı değer her zaman bir hata değildir ve bazen veriler hakkında önemli bilgiler sağlar. Geçerli veriler sadece gerçeklik teorimize uymadığı için kaldırılmamalıdır. Bunu yapmak zor olsun ya da olmasın, aykırı değerlerin meydana gelmesinin nedeni her zaman araştırılmalıdır.

Bu sitede çok değişkenli aykırılıkların ilk kez tartışılmadığından bahsetmeliyim. Aykırı değerlerin araştırılması, muhtemelen çok değişkenli aykırı değerlerin tartışıldığı birkaç soruya yol açacaktır. Makaleme ve bu kitaplarıma daha önce atıfta bulunduğumu ve onlara bağlantılar verdiğimi biliyorum.

Ayrıca aykırı reddi tartışıldığında, bu sitedeki çoğumuz, özellikle sadece istatistiksel bir teste dayanılarak yapıldıysa buna karşı öneride bulunduk. Peter Huber çoğu kez reddedilmeye alternatif olarak güçlü bir tahminden bahseder. Fikir, güçlü prosedürlerin, ağırlıkları, reddetme ve sağlam olmayan bir tahminci kullanma aşaması olmadan tahmin üzerindeki etkilerini azaltacağı yönündedir.

Etki fonksiyonu aslında Frank Hampel tarafından 1970'lerin başında doktora tezinde geliştirildi (sanırım 1974). Onun fikri aslında aykırı değerlere karşı sağlam olmayan tahmin edicileri tanımlamak ve güçlü tahmin ediciler geliştirmeye yardımcı olmak için etki fonksiyonlarını kullanmaktı.

Burada , etki fonksiyonlarını kullanarak zaman serilerinde aykırı değerlerin algılanması üzerine yaptığım bazı çalışmalardan bahsettiğim bu konuyla ilgili daha önceki bir tartışmaya bir bağlantı var.


2

Aykırı değerlerle başa çıkmanın bir başka basit yaklaşımı parametrik olmayan istatistikleri kullanmaktır. Muhtemelen örnek büyüklüğünüzle bir Spearman'ın rho korelasyonun bir indeksi olarak iyi çalışır. (Bununla birlikte, parametrik olmayan, sıralı istatistiklerin doğrusal olmayan ilişkilerde size yardımcı olmadığını unutmayın.)

Bir Pearson r (parametrik istatistik) kullanmak istiyorsanız ve Cook'un mesafesini hesaplayamıyorsanız, ortalamadan 2.67 standart sapmadan (sd) fazla olan herhangi bir veri noktasının standart bir kuralını kullanabilirsiniz. veya ortalamadan 4.67 sd, sırasıyla bir uç değer veya uç değerdir. Bunlar, standart bir istatistiksel analiz programında (SPSS) kullanılan aykırı değerler ve uç veri noktaları için tipik kesme değerleridir.

Bir veri noktasının bir aykırı değer olması, verilerin atılmasının kötü olduğu anlamına gelmez. Aşırı noktalarla ve uç noktalar olmadan ilişkinizi hesaplayabilir ve oradan gidebilirsiniz.


1

Cook'un Mesafesini denemek isteyebilirsiniz. Önerilen kesikler için wikipedia makalesine bakın. Ayrıca, bazı regresyon modellerine yöneliyorsanız, güçlü regresyonu denemek isteyebilirsiniz.


1
Bu bir cevaptan çok bir yorum gibi görünüyor; cevaplar genellikle daha uzundur ve daha detaylıdır. Örneğin, Cook'un mesafesinin neden aykırılıklar için iyi bir test olduğu ve bunun bir nedeni olduğu konusunda mantık eklediyseniz, bu bir cevap olacaktır.
Peter Flom - Monica'yı eski durumuna döndürün

1

İlk olarak, çalışma dışında olduğundan emin olmadığınız sürece atipik değerleri kaldırmayın! Bazı önemli bilgiler içerebilirler (değişkenlik). Aykırı değerlerin yanlış girilmiş veya ölçülmüş verilerden kaynaklandığı açıksa bunları bırakmalısınız. Verilerinizi elde etmek için kullanılan örnekleme yöntemini bilmiyorsanız, atipik değerleri ve etkilerini aşağıdaki gibi tanımlamanız gerekir:

  1. ei

  2. hiihii

  3. i
    DCi=ei2·hii/[(1hii)·p]

Muhtemel çözümler:

  • Değişkenleri dönüştürme ve / veya modele yeni değişkenler ekleme.
  • Aykırı değerlerden başka bir şey olmayan etkili gözlemler için, çok fazla değilse, bu kişileri kaldırabilirsiniz.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.