Bir aykırı titiz tanımı?


44

İnsanlar genellikle istatistiklerle aykırı davranmaktan bahseder. Bu konuda beni rahatsız eden şey, söyleyebildiğim kadarıyla bir aykırı tanımının tamamen öznel olmasıdır. Örneğin, bazı rasgele değişkenlerin gerçek dağılımı çok kuyruklu veya iki modlu ise, aykırı değerlerin tespiti için herhangi bir standart görselleştirme veya özet istatistiği, örneklemek istediğiniz dağıtımın parçalarını hatalı şekilde kaldıracaktır. Varsa, bir aykırıcının titiz bir tanımı nedir ve eğer varsa, aykırı değerlere mantıksız miktarlarda öznellik getirmeden analiz edilebilir mi?


Belirli bir dağıtım için bilmek istiyorsanız, o zaman bir örnek isteyin. Farklı durumlar için farklı olacaktır.
John

8
Şey, objektif bir şekilde rigorous definition of an outliertanımlayabileceğiniz bir zamanın olacağını unreasonable amounts of subjectivityumardım ;-), Teşekkürler
yemek

1
Ancak tanım, dağıtım ve duruma göre değişebilir. ± 1.5 IQR veya 3 SD veya bazılarını söyleyebilirim. Ancak, iki farklı önlemim varsa, reaksiyon süresi ve doğruluk diyerek tamamen farklı bir yaklaşım benimsem. RT'nin bir doğruluk düzeyinde şartlandırılmış olduğunu söyleyebilirim. Hepsi iyi ve matematiksel olarak titiz olabilir ve farklı uygulamaları ve anlamları olabilir.
John,

2
ÇOK ÇÖZÜNCÜ ÇÖZÜM TANIMLARI Ancak bunlar arasında seçim keyfi görünebilir. Ancak bunun, istatistiklerin her sorunun bir doğru cevabı olduğu bir konu olduğu yanılgısının bir parçası olduğunu düşünüyorum.
Peter Flom - Monica

Yanıtlar:


23

Verileriniz bilinen özelliklere sahip bilinen bir dağıtımdan geldiği sürece, dikkatsizce, gözlenen işlem tarafından yaratılması muhtemel olmayan bir olay olarak kesin olarak tanımlayabilirsiniz (eğer "zor olmadı" deyince tüm hipotez testleri).

Bununla birlikte, bu yaklaşım iki düzeyde sorunludur: Verilerin bilinen özelliklere sahip bilinen bir dağıtımdan geldiğini varsayar ve aykırı değerlerin bazı büyülü armalar tarafından belirlenen verilerinize kayan veri noktaları olarak görülmesi riskini getirir.

Büyülü veri hatalarının yokluğunda, tüm veriler denemenizden gelir ve bu nedenle aykırı değerlere sahip olmak mümkün değildir, sadece garip sonuçlar elde etmek mümkün değildir. Bunlar, kayıt hatalarından (örneğin, 4 dolarlık bir 400000 yatak odalı ev), sistematik ölçüm sorunlarından (nesne analiz sınırına çok yakınsa görüntü analiz algoritması büyük alanları bildirir), deneysel problemlerden (bazen kristaller çözeltiden çöker) ortaya çıkabilir çok yüksek bir sinyal verir) veya sisteminizin özellikleri (bir hücre bazen iki yerine üçe bölünebilir), ancak bunlar nadiren ve araştırma yaptığınız için hiç kimsenin hiç düşünmediği bir mekanizmanın sonucu olabilir. Bu, yaptığınız bazı şeylerin henüz bilinmediği anlamına gelir.

İdeal olarak, her aykırı araştırmak için zaman ayırırsınız ve yalnızca modelinize neden uymadığını anladıktan sonra veri kümenizden kaldırırsınız. Bu, zaman alıcı ve özneldir, çünkü nedenler deneye oldukça bağımlıdır, ancak alternatif daha kötüdür: Aykırı değerlerin nereden geldiğini anlamadıysanız, aykırı değerlerin sonuçlarınızı "karıştırmasına" izin verme seçeneğiniz vardır. veya anlayış eksikliğinizi gizlemek için bazı "matematiksel açıdan titiz" bir yaklaşım tanımlamak Başka bir deyişle, "matematiksel titizlik" peşinde koşarak, önemli bir etki yapmama ve cennete girmemeyi seçersiniz.

DÜZENLE

Sahip olduğunuz tek şey, nereden geldiklerini bilmeden bir sayılar listesi ise, bir veri noktasının bir outlier olup olmadığını söylemenin hiçbir yolu yoktur, çünkü her zaman tüm verinin uygun olmadığı bir dağıtımı varsayabilirsiniz.


3
Ancak, tüm aykırı değerler bir denemeden üretilmez. Bir bölgedeki emlak bilgilerinin toplanmasını içeren büyük bir veri setiyle çalıştım (satış fiyatı, yatak odası sayısı, kare görüntüleri vb.) Ve şimdi ve sonrasında veri girişi hataları olur ve 400.000 yatak odalı ev 4 dolar, ya da bunun gibi saçma bir şey. Bir aykırı belirleme hedefinin bir kısmının verilerden üretilip üretilemeyeceğini veya sadece bir giriş hatası olup olmadığını görmek olduğunu düşünüyorum.
Christopher Aden,

2
@Christopher Aden: Deneysel sürecin bu bölümünü düşünürdüm. Temel olarak, aykırı değerleri kaldırabilmek için, verilerin nasıl oluşturulduğunu anlamanız gerekir, yani iyi bir neden olmadan aykırı değerleri kaldırmanız gerekmez. Aksi takdirde verilerinizi sadece stilize ediyorsunuzdur. Bunu biraz daha iyi yansıtacak şekilde cevabımı değiştirdim.
Jonas

Bu tamamen mantıklı, ancak doğru dağıtımın ne olduğu hakkında zaten yeterli miktarda önceden bilgiye sahip olduğunuzu varsayalım. Çok ağır kuyruklu veya iki kuyruklu olabileceğiniz senaryolar açısından daha fazlasını düşünüyordum.
dsimcha

@ dsimcha: Bu durumda aykırı değerleri tanımlayabileceğinizi sanmıyorum (ayrıca düzenlememe bakın).
Jonas

2
@ dsimcha - her zaman önceden bilgin var! Veriler size nasıl verildi? Eğer her zaman her zaman o kadar biliyorum. veriler sadece sihirli görünmüyor. ve her zaman geçici varsayımlarda bulunabilirsiniz. Bu varsayımlara dayanan "aykırı değerler" temel olarak, varsayımlarınızdaki bir şeyin yanlış olduğuna dair bir ipucu verir. "her zaman göreceli olan" aykırı "inceleyerek modelinizi geliştirebilirsiniz.
Olasılık

13

Aykırı olanları çıkarmanın öznel bir egzersiz gibi görünebileceği konusunda haklısın ama bu yanlış olduğu anlamına gelmez. Veri analizinizle ilgili her karar için her zaman titiz bir matematiksel nedene sahip olmak zorunda olan zorunlu gereksinim, yine de, subjektif bir alıştırma olduğu ortaya çıktıktan sonra ince bir yapay titizlik perdesidir. Bu özellikle, karşılaştığınız her duruma aynı matematiksel gerekçeyi uygulamak istiyorsanız geçerlidir. (Her şey için kurşun geçirmez net matematiksel kurallar olsaydı, o zaman bir istatistikçiye ihtiyacınız olmazdı.)

Örneğin, uzun kuyruk dağıtım durumunuzda, aykırı değerlerle temel bir faiz dağılımı veya aykırı değerlerden yalnızca birinin bir parçası olan iki temel faiz dağılımı olup olmadığına karar vermek için hiçbir garanti yöntemi yoktur. Veya, cennet yasak, sadece gerçek veri dağıtımı.

Ne kadar fazla veri toplarsanız, dağılımın düşük olasılık bölgelerine o kadar fazla girersiniz. 20 örnek toplarsanız çok düşük bir olasılıkla 3.5 puan z ile bir değer elde edersiniz. 10.000 örnek toplarsanız büyük olasılıkla bir tane alırsınız ve bu dağılımın doğal bir parçasıdır. Yukarıda verilenlere göre, bir şeyi dışlamak için aşırı olduğu için nasıl karar verirsiniz?

Genel olarak analiz için en iyi yöntemleri seçmek genellikle özneldir. Mantıklı olamayacak kadar öznel olup olmadığı, kararın açıklamasına ve alıcının kararına bağlıdır.


+1 Kitabı aykırıklar üzerine yazan Barnett ve Lewis, “bir veri kümesinde bir aykırı [ bir gözlem kümesidir (veya bir gözlem alt kümesi), bu veri kümesinin geri kalanıyla tutarsız görünmektedir) . 7]. “Gözlemcinin, bazı gözlemlerin inceleme için seçilip seçilmeyeceği konusundaki öznel bir yargılama meselesidir. "
whuber

Burada "kitap" biraz belirsiz. Barnett ve Lewis'i önde gelen monograf olarak kabul ederdim, ancak aykırı makaleler hakkındaki tek kitap bu değil. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 yeni güncellendi. Ayrıca DM Hawkins'in eski bir kitabı var.
Nick Cox

9

Verileri ortaya çıkaran temel sürecin bir modelini varsaymadan bir outlier tanımlamanın mümkün olduğunu sanmıyorum. Böyle bir model olmadan, verilerin anormal veya "yanlış" olup olmadığına karar verecek bir referans çerçevemiz yoktur. Yararlı bulduğum bir alıcının tanımı, bir alıcının başka türlü iyi performans gösteren bir modele bağdaştırılamayan bir gözlem (veya gözlemler) olduğudur.


2
Hmm ... EDA metninde John Tukey, hiç bir model kullanmadan ayraçları özel olarak tanımladı.
whuber

7
Aykırı değerleri model olmadan tanımlayabilirsiniz, ancak bu tanımların yararsız olduğunu gördüm. BTW, modele göre, kesinlikle verilere açıkça uygun olan istatistiksel bir model anlamına gelmiyor. Herhangi bir aykırı bir tanım, ne tür değerler görmeyi umduğunuzu ve ne tür değerler görmeyi beklemeyeceğinizi tahmin etmenizi gerektirir. Bu varsayımların (yani modelin) açık hale getirilmesinin daha iyi olacağını düşünüyorum. Ayrıca, EDA'da verileri araştırdığınızdan, bir outlier tanımlamanızın EDA için son bir modele uymaktan çok farklı olabileceği hususu vardır.
Dikran Marsupial

6

Burada birçok mükemmel cevap var. Ancak, iki sorunun karıştığını belirtmek istiyorum. Birincisi, 'dışlayıcı nedir?', Ve daha özel olarak, bunun “titiz bir tanımını” vermek için. Bu basit:

Bir aykırı, üzerinde çalışmayı düşündüğünüzden / verilerinizin geri kalanından farklı bir popülasyon / dağıtım / veri üretme sürecinden gelen bir veri noktasıdır.

İkinci soru 'bir veri noktasının outlier olduğunu nasıl bilebilirim / saptayabilirim?' Ne yazık ki, bu çok zor. Bununla birlikte, burada verilen cevaplar (ki gerçekten çok iyi ve geliştiremeyeceğim) bu görevde oldukça yardımcı olacaktır.


1
99(0,1)-2.52.5(4,1)21402
whuber

1
@whuber, evet. Ben bunu söylemek olduğunu sen (pratik operasyonel ile ne demek olduğu, sanıyorum,) bunu fark asla rağmen, outlierdir.ramasway.
gung - Reinstate Monica

1
Yaptığın ayrımdan dolayı teşekkür ederim. Sadece tanımınız ile bu konudaki aykırı değerlerin diğer tanımları veya açıklamaları arasındaki keskin kontrastı belirtmek istedim. Sizinki tatmin edici pratik prosedürlere yol açacak gibi görünmüyor: Veri kümenizin büyük bir bölümünün "dışlayıcı" olabileceğini, ancak bunu tespit etmek veya çözmek için hiçbir yolu olmadan, her zaman kabul etmeniz gerekir.
whuber

@whuber, gönülden katılıyorum. Bunu, (örneğin) (örneğin) 2 grubun çok küçük, saptanamayan bir miktarda farklılık gösterebileceği veya ılımlı bir miktarda farklılık gösterebileceği, ancak elde ettiğiniz numunelerin yalnızca şans eseri olarak çok benzer olduğu; Bununla birlikte, teorik bir bakış açısıyla, ayrımı anlamaya ve sürdürmeye değer.
gung - Reinstate Monica

1
@whuber, haklısın. Bazıları bu ayrımı yapar, ancak çoğu bu fikirler hakkında net değildir. Benim görüşüm, kirletici dışında “aykırı” anlamlı bir gerçeklik olmadığı yönünde . Bununla birlikte, insanlar da sonuçların tek başına yönlendirilip getirilmediğini ('gerçek' olsun ya da olmasın) ve konuyla ilgili endişeleri olduğunu düşünmelidir, ve sonuçlarınız çok kırılgandır. Kısacası, popülasyonunuzdan kaynaklanan noktalardan endişe duymanız için hiçbir neden yoktur ve sonuçlarınızı benzersiz bir şekilde yönlendirmezsiniz; Bu 2 sorunu çözdüğünüzde, "outlier" a bırakılacak hiçbir şey kalmaz.
gung - Reinstate Monica

6

Tanım 1: Daha önce de belirtildiği gibi, aynı süreci yansıtan bir veri grubundaki bir aykırı (A sürecini söyler), A işleminin sonucu olma ihtimali düşük bir gözlemdir (veya bir dizi gözlem) .

Bu tanım kesinlikle A sürecinin olasılık fonksiyonunun bir tahminini (dolayısıyla bir model) ve olası olmayan ne anlama geldiğini (yani nerede duracağına karar vermeyi ...) öngörmeyi içerir. Bu tanım, burada verdiğim cevabın temelinde bulunuyor . Daha önemlisi veya uyum iyiliği hipotez testi fikirleri ile ilgilidir .

xG,x

Bu tanım "verilen bir model" ve doğruluk ölçüsünü içerir. Bu tanımın pratik taraftan daha fazla olduğunu ve aykırı değerlerin kökeninde olduğunu düşünüyorum. Kökeni, dış tespit, sağlam istatistikler için bir araçtır .

Açıkçası, ilk tanımdaki olasılığı hesaplamanın bir puanlama modelini ve hesaplamasını içerdiğini anlarsanız, bu tanımlar çok benzer yapılabilir. :)


2

Bir aykırı, bu verileri üreten süreç hakkındaki mevcut anlayışım göz önüne alındığında, bana uygun olmayan bir veri noktasıdır.

Bu tanımın yapılabileceği kadar titiz olduğuna inanıyorum.


Bunu John Tukey'in tanımına zıt kılar ("dışarısı" terimini kullandı): "Bazı değer gruplarına baktığımızda, belirli değerleri diğerlerinin çok ötesinde görünüşte sapmış gibi görüyoruz. ... belirli değerleri "dış" ... "olarak seçen başparmak, daha sonra bunu" sıra dışı olabilecek bireysel değerlerin belirlenmesi "olarak özetler. [EDA, bölüm 2]. Kitap boyunca “bir süreci anlamak” gibi davranmak yerine verileri tanımladığımızı ve çoklu geçerli tanımların her zaman mümkün olduğunu vurguluyor .
whuber

Benzer şekilde, "Aykırı değerler, örneğin çoğunluğuna göre süpriz yapan örnek değerlerdir" (WN Venables ve BD Ripley, 2002. S. New York ile modern uygulamalı istatistikler : Springer, s.119). Bununla birlikte, sürpriz, alıcının aklındadır ve verilerin bazı açık veya kesin modeline bağlıdır. Dış görünüşün hiç şaşırtıcı olmadığı başka bir model olabilir, örneğin, veriler normalden çok lognormal veya gamadır.
Nick Cox,

@Nick Bu, John'un cevabına yaptığı bir yorumda alıntı yaptığım Barnett ve Lewis ile tutarlıdır .
whuber

@ whuber: "Buna zıt et" dedin, ki bence aynı fikirde değilsin ama emin değilim. Belki de model oluşumunun - belki de örtük ve naif - verideki kalıpları, aydaki adamı veya aykırı değerleri görmemizin nedeni olduğunu iddia ediyorum. Modelin fizik / kimya / ekonomik temeli olmayabilir, ancak bir model varsaydık. Aksi takdirde sürpriz yoktur, "dışarısı" yoktur.
Wayne

Tukey, verileri tanımlarken zorunlu olmamızın gerekmediği konusunda ısrar ediyor. bunları modellemememiz . "Model" tanımınızı veri açıklamasını içerecek şekilde genişletmek doğru olur, ancak daha sonra bu terim yararlı olmak için neredeyse çok genel hale gelir. Tukey’in bakış açısına göre (elbette yorumladığım gibi), yüz kaybına dair bir endişe yok ya da herhangi bir kolaylık sorunu da yok. Bu nedenle, motivasyonunuza saygı göstersem de, tavrınızın ("yüz kurtarma" ve "uygunsuz" olarak yansıtıldığı gibi) bu soruya diğer yaklaşımlardan daha az yapıcı olduğunu düşünüyorum.
whuber

0

Bir outlier'ı, tüm (2 ^ n -1) benzersiz altkümelerinde% 95 güven düzeyinde gerçekleştirilen RUM testlerine% 100 uyumluluk sağlamak amacıyla, bir veri boyutundan n çıkarılması gereken asgari öğe grubunun bir üyesi olarak tanımlayın. veri. RUM testinin tanımı için R (Eylül 2010) kullanarak pdfs'e veri uyumu hakkında Karian ve Dudewicz metnine bakınız.


-2

Aykırıklar yalnızca sıklık aleminde önemlidir. Tek bir veri noktası, teoriniz tarafından önceden belirlenmiş temel bir dağılımla tanımlanan modelinize yanlılık eklerse, o zaman bu model için bir aykırıdır. Öznellik, teoriniz farklı bir model ortaya koyarsa, aykırı değerler olarak farklı noktalara sahip olmanız gerçeğinde yatmaktadır.


1
Aykırı değerlerin Bayesian veri analizinde önemsiz olduğunu mu iddia ediyorsunuz?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.