Aykırı verileri veriden kaldırmak uygun mudur?


33

Aykırı verileri bir veri kümesinden kaldırmak için bir yol aradım ve bu soruyu buldum .

Bununla birlikte, bu soruya yapılan yorum ve cevapların bazılarında, insanlar aykırı verileri verilerden kaldırmanın kötü bir uygulama olduğunu belirtti.

Veri setimde, büyük olasılıkla sadece ölçüm hataları nedeniyle ortaya çıkan birkaç aykırı var. Bazıları olmasa bile, duruma göre kontrol etme şansım yok çünkü çok fazla veri noktası var. Aykırı olanları kaldırmaktan daha istatistiksel olarak geçerli midir? Ya da değilse, başka bir çözüm ne olabilir?

Bu noktaları orada bırakırsam, örneğin ortalamayı gerçeği yansıtmayacak şekilde etkilerler (çünkü çoğu durumda hata vardır).

EDIT: Cilt iletkenliği verileriyle çalışıyorum. Aşırı değerlerin çoğu, telleri çeken biri gibi eserlerdir.

EDIT2: Verileri analiz etmedeki ana ilgim, iki grup arasında bir fark olup olmadığını belirlemektir.


3
Ve ne yapmak istiyorsun? Veri özeti? Tahmini analiz? Veri goruntuleme? İki grup arasında (hayır) anlamlı fark olduğunu kanıtlamak? Tüm veri temizliğinde olduğu gibi, genel bir cevap yok.
Piotr Migdal


5
Ben çok fazla istatistikle çalışan bir mühendisim. Bu bir feragatname ve itiraftı; bu, ürünleri teslim etmem gerektiği anlamına geliyordu. Yalnızca tam olarak atfedilen "kötü" noktaları kaldırmamıza izin verilir. Tel çeken birinin olduğunu kanıtlayabilir misin? Birkaç kasıtlı önlem alırsanız, oraya bağlayabilir ve kümelendirebilirsiniz. Daha sonra kümedeki verileri bölebilirsiniz (çekme vs çekme) ve artık artık aykırılıklarla ilgili değildir. Kök nedeninin ne olduğunu kanıtlayamıyorsanız, korumanız gerekir (gerekir). Değişime hitap ediyor ve bu büyük bir analiz yığını. Eğer beğenmediysen, ondan kurtulamazsın.
EngrStudent - Monica

4
Bence yanlış sona başladın. İlk soru, aykırı noktaları ilk etapta nasıl tanımlarsınız?
kullanıcı603

5
Keyfi olarak belirlenmiş aykırı değerlerin keyfi olarak çıkarılması yerine, "telleri çeken insanlar gibi sorunlardan kirlendiğim için, bu tür kirlenmeden kötü etkilenmeyen hangi yöntemleri kullanabilirim?" Gibi bir şeyi düşünmeniz daha iyi olabilir.
Glen_b

Yanıtlar:


26

Ana analizde herhangi bir aykırıyı dışlamamı önermiyorum (eğer gerçekten olumlu değillerse yanılıyorlar). Yine de, duyarlılık analizinde bunu yapabilir ve iki analizin sonuçlarını karşılaştırabilirsiniz. Bilimde, sık sık bu tür aykırı noktalara odaklanırken kesin olarak yeni şeyler keşfedersiniz.

Daha fazla ayrıntılandırmak için, seminal Fleming'in bir küfle deneylerinin yanlışlıkla kontaminasyonuna dayanarak penisilin keşfini düşünün:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Yakın geçmişe veya günümüze bakıldığında, saptama tespiti sıklıkla biyomedikal bilimlerde yeniliği yönlendirmek için kullanılır. Örneğin, aşağıdaki makalelere bakın (bazı uygun R kodlarıyla):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Son olarak, bazı verileri dışlamak için makul nedenleriniz varsa, bunu birincil hassasiyette değil, tercihen duyarlılık analizinde yapabilirsiniz. Örneğin, biyolojik olarak mantıklı olmayan tüm değerleri (septik bir hastada 48 santigrat derece gibi) hariç tutabilirsiniz. Benzer şekilde, hareket artefaktlarını en aza indirmek için herhangi bir hasta için tüm ilk ve son ölçümleri hariç tutabilirsiniz. Bununla birlikte, bu post-hoc'u yaparsanız (önceden belirlenmiş bir kritere dayanmazsanız), bunun veri masajına yol açabileceğini unutmayın.


5
Kabul ediyorum, ancak bu cevabı bir şekilde onu oylamak için kısaca buluyorum. Belki çalışılmış bir örnek verebilir veya aykırı değerlere odaklanırken neden ve nasıl yeni şeyler keşfedilebileceğini gösterebilir misiniz? Bu ilk bakışta çok açık olmayabilir.
Tim

26

Seçeneklerden biri, aykırı olanları dışlamaktır, ancak IMHO, bu noktaların neden geçersiz olduğunu (örneğin, ölçüm ekipmanının bozulduğunu, ölçüm yönteminin bir nedenden dolayı güvenilir olmadığını ...) neden söyleyebiliyorsanız yapmanız gereken bir şeydir. Örneğin, frekans bölgesi ölçümlerinde, çoğu zaman gözlemlemeye çalıştığınız fenomenle ilgisi olmayan birçok farklı terim DC'ye katkıda bulunduğundan, genellikle atılır.

Aykırı değerlerin kaldırılmasındaki problem, hangi noktaların aykırı değer olduğunu belirlemek için, "iyi veri" olan veya olmayan iyi bir modele sahip olmanız gerektiğidir. Modelden emin değilseniz (hangi faktörlerin dahil edilmesi gerektiğini, modelin hangi yapısına sahip olduğunu, gürültünün varsayımlarını nelerdir, ...), o zaman aykırı değerinizden emin olamazsınız. Bu aykırı değerler, modelinizin yanlış olduğunu size söylemeye çalışan örnekler olabilir. Başka bir deyişle: Aykırı olanları kaldırmak, yeni bilgiler edinmenize izin vermek yerine (yanlış!) Modelinizi güçlendirecektir!

Diğer bir seçenek ise sağlam istatistikler kullanmaktır. Örneğin, ortalama ve standart sapma aykırı değerlere karşı hassastır, "konum" ve "yayılmanın" diğer ölçümleri daha sağlamdır. Örneğin, ortalama yerine, medyanı kullanın. Standart sapma yerine, çeyrekler arası aralığı kullanın. Standart en küçük kareler regresyonu yerine, güçlü regresyon kullanabilirsiniz. Tüm bu sağlam yöntemler, aykırı olanları bir şekilde veya başka şekilde vurgulamaktadır, ancak genellikle aykırı verileri tamamen kaldırmaz (yani iyi bir şey).


5
Mükemmel cevap. Çoğu insan her tekniğin her veri türü için uygun olmadığını anlamıyor . Aykırı değerlere basılmış veriler için ortalamaya odaklanmak talihsiz sonuçlardan biridir. Uyandırma çağrıları arttıkça, bu gibi yanıtlardan herkes için daha iyidir.
rumtscho

16

Aykırı olanları kaldırma hakkında dikkatli bir hikaye ekleyeceğimi düşündüm:

Polar ozon tabakasındaki delikle ilgili problemi hatırlıyor musunuz? Özellikle ozon konsantrasyonunu ölçmek için direğe yörüngeye konan bir uydu vardı. Birkaç yıl boyunca uydudan gelen işlenmiş veriler, ozonun kayıp olduğunu açıkça gösterse de, polar ozonun normal seviyelerde bulunduğunu bildirdi. Sonunda birisi uydu yazılımını kontrol etmek için geri döndü. Birisi kodu ham ölçüm tipik tarihsel düzeyi hakkında beklenen aralıkta olup olmadığını kontrol etmek ve aralığın dışında herhangi ölçüm sadece bir enstrüman 'başak' (yani bir uç değer) olduğunu varsaymak yazmış olduğu ortaya çıktı, oto değerini düzeltmek . Neyse ki ham ölçümleri de kaydetmişlerdi; Onları kontrol ederken onlar delik boyunca bildirilmiş olduğunu gördüler.


12
Olayla ilgili bir referans eklemek iyi olur : Neden olayı daha önce keşfetmediler? Ne yazık ki, TOMS veri analizi yazılımı beklenen ölçümlerden büyük ölçüde sapan veri noktalarını işaretlemek ve bir kenara koymak için programlanmıştır ve bu nedenle alarmları tetiklemesi gereken ilk ölçümler basitçe gözden kaçırılmıştır. Kısacası, TOMS ekibi yıllar önce ozonun tükenmesini tespit edemedi, çünkü bilim insanlarının beklediğinden çok daha şiddetliydi.
Johnny

3
Bu harika bir hikaye. ve bir çoğunu tekrarladı, ama bana göre math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf, inandırıcı bir biçimde yanlış anlaşmaya dayanan bir efsane olarak tanımladı. İki kutup olduğundan, "kutup ozon tabakasının" yeniden yazılması gerektiğini unutmayın.
Nick Cox

3
Ayrıca yetkili hesap Christie'ye de bakınız. M. 2001. Ozon Tabakası Bilim Felsefesi Perspektifi. Cambridge: Cambridge UP
Nick Cox

7

'Outlier', analizden çıkarmak için işleminizin nasıl görünmesini beklediğinize uymayan verileri bir araya toplamak için uygun bir terimdir.

öneririm Aykırı aykırı kaldırma asla (sonradan ihtar) . Geçmişim istatistiksel süreç kontrolüdür, bu nedenle çoğu zaman verilere ve dağılıma bağlı olarak bir çalışma tablosu / taşıma kutusu grafiği / vb.

Aykırı olanlarla ilgili olan şey, 'işleminiz' hakkında her zaman bilgi sağlayacaklarıdır. Genellikle, bir süreç olarak düşündüğünüz şey aslında birçok süreçtir ve sizin için kredi vermekten çok daha karmaşıktır.

Sorunuzdaki örneği kullanarak, bir takım 'süreçler' olabileceğini öneriyorum. nedeniyle varyasyon olacak ...

  • bir iletkenlik cihazı tarafından alınan örnekler
  • arasında alınan örnekleriletkenlik cihazları
  • konu bir sondayı çıkardığında
  • konu taşındığında
  • bir denek cildindeki vücutta veya farklı örnekleme günlerinde (saç, nem, yağ vb.) farklılıklar
  • konular arasındaki farklar
  • Ölçümler alan kişinin eğitimi ve personel arasındaki farklılıklar

Bu işlemlerin tümü, verilerde ekstra değişkenlik üretecek ve muhtemelen ortalamayı hareket ettirecek ve dağılımın şeklini değiştirecektir. Bunların birçoğu farklı süreçlere ayrılamayacaksınız.

Böylece veri noktalarının 'aykırı değerler' olarak kaldırılması fikrine gidiyorum ... sadece veri noktalarını kaldırırdım; bunları kesinlikle analizime dahil etmek istemediğim belirli bir 'sürece' bağlayabilirim. Daha sonra dahil olmama nedenlerinin analizinizin bir parçası olarak kaydedildiğinden emin olmanız gerekir, bu nedenle açıktır. İlişkilendirme varsaymayın, veri toplama sırasında gözlemleyerek ekstra notlar almanın anahtarı budur.

İfadenize meydan okurdum, çünkü 'çoğu zaten hatadır', hata olmadığı için, ancak ölçümlerinizde farklı olarak tanımladığınız farklı bir sürecin bir parçası.

Örneğinizde, analiz etmek istemediğiniz ayrı bir işleme atfedilebileceğiniz veri noktalarını dışlamanın makul olduğunu düşünüyorum .


6

Aykırı olanları çıkartıyorsanız, çoğu durumda yaptığınızı ve nedenini belgelemeniz gerekir. Bu, bilimsel bir makale veya düzenleyici amaçlar için ise, bu, nihai istatistiklerininizin indirgenmesine ve / veya reddedilmesine neden olabilir.

Daha iyi bir çözüm, ne zaman kötü veri aldığınızı (örneğin, insanlar telleri çekerken) belirlemek, ardından insanların telleri ne zaman çekdiğini tanımlamak ve bu nedenle verileri çekmektir. Bu da muhtemelen bazı 'iyi' veri noktalarının düşmesine neden olacaktır, ancak şimdi toplama sonunda bu analiz noktalarını etiketlemek yerine indirim yapmak için 'gerçek' bir nedeniniz var. Bunu temiz ve şeffaf bir şekilde yaptığınız sürece, üçüncü şahıslar tarafından kabul edilebilir olmak çok daha olasıdır. Çekilmiş tellerle ilgili veri noktalarını kaldırırsanız ve hala aykırı değerler alıyorsanız, muhtemel sonuç, çekilen tellerin (sadece) sorun olmadığıdır - diğer sorun, deneme tasarımınızla veya teorinizle olabilir.

Annemin üniversiteye geri döndüğü zaman BSc'sini bitirmek için yaptığım ilk deneylerden biri, öğrencilere bir sürecin nasıl çalıştığı hakkında 'kötü' bir teori verilen ve daha sonra bir deney yapmaları gerektiğidir. Elde edilen 'kötü' veri noktalarını silen veya değiştiren öğrenciler ödevini yapamadı. Verilerinin doğru olmadığını bildirenler (kötü) teorisinin öngördüğü sonuçlarla uyuşmadığını bildirdi. Ödevin amacı, öğrencilere beklenenin üzerinde olmadıklarında verilerini 'düzeltmemeyi' (falsify) değil öğretmektir.

Özet: Kötü veri oluşturuyorsanız, verilerinizi değil denemenizi düzeltin.


5

Elbette ahlaki bir ikilem. Bir yandan, neden birkaç şüpheli veri noktasının modelinizin verilerin yığınına uymasını engellemesine izin vermelisiniz? Öte yandan, modelinizin gerçeklik kavramı ile uyuşmayan gözlemleri silmek bir çeşit sansür demektir. @ Egon'un görüşüne göre, bu aykırıcılar size bu gerçeklik hakkında bir şeyler anlatmaya çalışıyor olabilir.

İstatistikçi Steve MacEachern'den yaptığı sunumda, aykırı değerlerin "[çalışılan olguyu temsil etmiyor." "Olarak tanımladı. Bu bakış açısına göre, bu şüpheli veri noktalarının incelemek istediğiniz cilt iletkenliği fenomenini temsil etmediğini düşünüyorsanız belki de analize dahil değillerdir. Veya kalmalarına izin verilirse, etkilerini sınırlayan bir yöntem kullanılmalıdır. Aynı sunumda MacEachern, sağlam yöntemlerin örneklerini vermişti ve bu birkaç örnekte, aykırı olanların kaldırıldığı klasik yöntemlerin, aykırı değerlerin de dahil olduğu sağlam analizlerle her zaman aynı fikirde olduğunu hatırlıyorum. Şahsen, en rahat olduğum klasik tekniklerle çalışma eğilimindeyim ve dıştan silinmenin ahlaki belirsizliği ile yaşıyorum.


8
Hunter ve Hunter: Box'ta, "Denemeciler İçin İstatistik", kimya endüstrisinde, aykırıların genellikle yeni patentlere yol açtığını söylüyorlar . Yeni patentini atmak ister misin?
Halvorsen Kjetil b

2
Hayır, hiçbir patenti kaçırmak istemiyorum. Ama aynı zamanda, modelimi "telleri çeken birisini" barındırmak için on iki devir döndürmek istemiyorum. Bu neredeyse kesinlikle incelenen fenomen değil. Aykırı değerler fırsat olarak düşünülmesini seviyorum ve basit bir silme için söylenecek bir şey, en azından kodun bu silme işlemlerinin belgelendirmesini sağlayacağı, oysa sağlam yöntemlerde aykırı değerler diğer noktalarla bir arada var olacağı yönünde.
Ben Ogorek

2
Belirli koşulların dikkate alınması gerektiği konusunda haklısın. Yapılmaması gereken şey, genel reddetme için bağlamsız bazı "kurallar" uygulamaktır. Böyle iyi bir kural yoktur.
Halvorsen Kjetil b

1
Bağlamın gücü hakkındaki en sevdiğim nokta "Snickers barları sağlıklı mı?" Eğer üç gündür ormanda kaybolduysanız ve yerde birkaç tane bulursanız, sonuçta oldukça sağlıklı oldukları ortaya çıkar. Buradaki popüler cevapların bize, “Yapmazsanız öleceğinizden kesinlikle emin olmadığınız sürece, asla bir Snickers bar yeme” dedi.
Ben Ogorek

0

100 kişiden rastgele bir örnek alırsam ve bu insanlardan biri Bill Gates'e gelirse, söyleyebileceğim kadarıyla Bill Gates, nüfusun 1 / 100'ünü temsil eder.

Kesilmiş bir ortalama, ortalama piyango kazancının $ 0 olduğunu söyler.


Anormal bir şey değil, kesilmiş bir ortalama, eğri dağılımlar için uygun değildir.
Yves Daoust,

-2

Tabii ki aykırı olanları kaldırmalısın, çünkü tanım gereği inceleme altındaki dağılımı takip etmiyorlar ve parazitik bir fenomen.

Asıl soru "aykırı noktaları nasıl güvenilir bir şekilde saptayabilirim"!


Ya böyle bir dağılım Cauchy ise?
AdamO

@AdamO: Tabii ki asıl soru kaldı.
Yves Daoust

Neden bu aşağı oy?
Yves Daoust

3
(-1) çünkü bunun teori, örnek veya uygulama tarafından bildirilen yeterli bir katkı olduğunu sanmıyorum. "Parazitik bir fenomen" nedir, fakat şiirsel bir veri anlayışı nedir? Kan basıncı, idrar sodyum ve nörolojik görüntüleme ile ilgili olarak, göz önünde bulundurulan popülasyonu temsil eden günlük bazda "aykırı" durumları görüyorum. Bunları kaldırmak önemli bir önyargı kaynağı olabilir. Bunların "parazitik bir fenomen" olduğunu söylemek, anlamlı ve aldatıcı bir şekilde riskli bir istatistiksel uygulamayı mümkün kılmaktadır.
AdamO

@ adam: Siz sadece tamamen aynı fikirdeyim inliers tutmak için savunuyor.
Yves Daoust
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.