Aykırı değerlerin ortalama ile değiştirilmesi

31

Bu soru internet meraklısı olmayan arkadaşım tarafından soruldu. İstatistik geçmişim yok ve bu soru için internette arama yapıyorum.

Soru şudur: aykırı değerlerin ortalama değerle değiştirilmesi mümkün müdür? mümkünse, bu bildirimi yedeklemek için kitap referansı / dergi var mı?

— Alun
kaynak

25

Bunu yapmak kesinlikle mümkün , ancak bunu yapmanın mantıklı olduğu bir durumu hayal etmek zor.

— Peter Flom - Eski Monica

2

Zaten birkaç uzun cevap, ancak @Peter Flom'un bir cümle özeti, özet olarak eşleştirilemez.

— Nick Cox,

4

Henüz hiçbir cevap odadaki fillere işaret etmedi : “aykırı değerlerin” ortalamanın yanında kalmasına rağmen, veri kümesinin ortalamasını koruyor olsa da, neredeyse diğer tüm istatistikleri değiştiriyor. Hatta ortalamanın standart hatasının tahminlerini bile değiştiriyor. Buna göre - @Peter Flom'un yorumuna destek olarak - elde edilen veri seti, herhangi bir güvenilir çıkarım formu için kullanışlı görünmüyor. (Muhtemelen kendi haklarında değil,

— ayraçları

1

@whuber Açıkça önemli bir nokta. Bunu başka bir cevap haline getirecektim, bu yüzden bu konuyu çok hızlı okuyan hiç kimse tarafından kaçırılmamış. Bu aygıt tarafından özendirilmiş insanlar ve açıkça belli ki bazıları, (a) iyi bir fikir değil (b) kötü bir fikir olduğunu anlamalılar.

— Nick Cox,

1

@ user2357112 Sonuç, kullanılacak ortalamanın diğer değerlerin ortalaması olduğudur. Güvenilmez olarak kabul edilen değer, hesaplamaya dahil edilmemelidir.

— Nick Cox,

41

Açıkçası mümkün, ama iyi bir fikir olabileceği açık değil.

Bunun sınırlı veya eksik bir çözüm olduğu birkaç yoldan söz edelim:

Aslında, temel değerin tamamen güvenilmez olduğunu söylüyorsunuz, tek olası tahmininiz değerin ortalama olması gerektiğidir. Eğer düşündüğünüz buysa, sadece daha iyi bir tahminde bulunmak için yeterli bilgiye sahip olmadığınızdan, söz konusu gözlemi göz ardı etmek daha olasıdır.
Başka hiçbir şey söylemediğinde, ilk önce ayraçları belirlemek için bir kritere veya kritere ihtiyacınız vardır (@Frank Harrell tarafından belirtildiği gibi). Aksi halde, bu bir yargı meselesi olarak savunulsa bile, keyfi ve öznel bir prosedürdür. Bazı kriterlerde, aykırı değerlerin bu şekilde kaldırılmasının yan etki olarak daha fazla aykırı değer oluşturması mümkündür. Bir örnek, aykırı değerlerin ortalamadan uzak çok fazla standart sapma olması olabilir. Bir aykırı kaldırmak, standart sapmayı değiştirir ve yeni veri noktaları artık hak kazanabilir, vb.
Muhtemelen buradaki ortalama, diğer tüm değerlerin ortalamasıdır, @David Marx tarafından açıkça belirtilmiş bir nokta. Fikir bu şart olmadan belirsizdir.
Ortalamanın kullanılması güvenli veya muhafazakar bir prosedür gibi görünebilir, ancak ortalamanın değerini değiştirmek, seviye, ölçek ve şekil ölçüleri ve belirsizlik göstergelerinin de dahil olduğu hemen hemen her istatistiği değiştirir, @whuber tarafından vurgulanır.
Ortalama, uygun bir değer bile olmayabilir: basit örnekler, değerlerin tamsayı olduğu durumlardır, ancak genellikle ortalama bir tamsayı değildir.
Özet bir önlem kullanmanın temkinli olduğu düşüncesiyle bile, medyan ya da başka herhangi bir önlem yerine ortalamayı kullanmak bir gerekçeye ihtiyaç duyar.
Başka değişkenler olduğunda, bir değişkenin değerini başkalarına referans vermeden değiştirmek, diğer duyularda anormal bir veri noktası oluşturabilir.

Aykırılıklarla ne yapılması gerektiği açık ve çok zor bir sorudur. Gevşek bir şekilde, farklı çözümler ve stratejiler değişken bir çekiciliğe sahiptir. Kısmi olasılıklar listesi. Sipariş isteğe bağlıdır ve uygulanabilirlik, önem veya başka herhangi bir kriter açısından herhangi bir sipariş iletmek anlamına gelmez. Bu yaklaşımlar karşılıklı olarak münhasır değildir.

Bir tanesi (benim görüşüme göre) tanımının "yardımcıların, örneğin çoğunluğuna göre süpriz yapan örnek değerlerdir" (WN Venables ve BD Ripley. 2002. S. New York ile modern uygulamalı istatistikler : Springer, s.119). Bununla birlikte, sürpriz, alıcının aklındadır ve verilerin bazı açık veya kesin modeline bağlıdır. Dış hat sahibinin hiç şaşırtıcı olmadığı başka bir model olabilir, bu nedenle veriler normalden çok lognormal veya gammadır. Kısacası, modelinizi (yeniden) düşünmeye hazır olun.
Laboratuvara veya alana gidin ve ölçümü tekrar yapın. Genellikle bu uygulanabilir değildir, ancak birkaç bilimlerde standart görünmektedir.
Aykırı değerlerin orijinal olup olmadığını test edin. Testlerin çoğu bana oldukça çekici görünüyor, ancak durumunuza uygun olduğuna inanabileceğiniz bir tane bulabilirsiniz. Bir testin uygun olduğuna dair irrasyonel inanç, daha sonra özünde rasyonel olarak sunulan bir testi uygulamak için her zaman gereklidir.
Onları yargılama konusu olarak atın.
Daha fazla veya daha az otomatikleştirilmiş (genellikle "objektif" olmayan) bir kural kullanarak bunları atın.
Bunları kısmen veya tamamen görmezden gelin. Bu resmi olabilir (örneğin, kırpma) veya yalnızca veri kümesinde bırakma meselesi olabilir, ancak analizleri işlemek için çok sıcak olan analizlerden çıkarmak.
Bunları bir çeşit ayarlama kullanarak çekin, örneğin Winsorizing.
Başka bir sağlam tahmin yöntemi kullanarak bunları küçümseyin.
Dönüştürülmüş bir ölçekte çalışarak onları küçümseyin.
Kimliksiz bir link işlevi kullanarak bunları küçümseme.
Onlara öngörücü olmayan veya öngörücü olmayan, uygun yağ, uzun veya ağır kuyruklu dağıtımlar yerleştirerek onları ağırlayın.
Bir modelde ekstra bir öngörücü olarak bir gösterge veya yapay değişken kullanarak konaklayın.
Bazı parametrik olmayan (örneğin rütbe dayalı) prosedürü kullanarak sorunu bir kenara bırakın.
Önyükleme, jackknifing veya permütasyona dayalı prosedürleri kullanarak örtük belirsizliği ele alın.
Deterministic mantığı temel alan bir outlier değerini daha büyük bir değerle değiştirmek için düzenleyin. "18 yaşındaki bir büyükanne pek olası değil, ancak söz konusu kişi 1932'de doğdu, bu yüzden muhtemelen gerçekten 81."
Tamamen beyaz olmayan bir sihir olarak kabul edilebilir olan bazı değerlendirme yöntemlerini kullanarak imkansız veya imkansız bir aykırı değiştirmek için düzenleyin.
Aykırı (lar) ın istatistiksel olarak, bilimsel veya pratik olarak ne kadar fark yaratacağını farketmeden ve farketmeden analiz edin.
Bir şey Bayesian. Benim önceki cehaletim, herhangi bir ayrıntı vermeyi yasaklayan şeydir.

EDIT Bu ikinci baskı diğer cevaplardan ve yorumlardan faydalanmaktadır. İlham kaynaklarımı işaretlemeye çalıştım.

— Nick Cox
kaynak

1

(+1) güzel cevap. Bayes tarafında, pek çok şey yapılabilir, ancak gerçekte bu gibi değerlere sahip olmak için nasıl bir model oluşturmaya çalışıyorsunuz (dışlanana giden süreç). Örneğin, "her veri değerinin, verilerin büyüklüğünden çok daha ağır olan bir dağıtımdan kaynaklanma olasılığı bilinmeyen küçük bir potansiyele sahip" gibi basit bir şey olabilir ve daha sonra bu olasılığa önceden bir dağıtım yapıp bu wilder için bazı seçenekleri biçimlendirir. dağılım ve parametreleri için öncelikler. Bunun etkisi, modele uymayan noktaların etkisini hafifletmektir.

— Glen_b

16

Sorunuzla ima edilen birkaç sorun var.

"Aykırı" nedir?
Bir "outlier" değiştirilmeli mi?
Diğer bir tahminin aksine, ortalama konusunda özel olan şey nedir?
Varyansın çok küçük olmasına neden olan tek bir değerle değiştirildikten sonra ortaya çıkan görünür farkı arttırmayı nasıl telafi edersiniz?
Neden aykırı değerlere dayanıklı sağlam tahmin ediciler kullanmıyorsunuz?
Bu bağımsız mı yoksa bağımlı bir değişken mi?

1-5'in hiçbiri açık bir cevaba sahip değil. Bu "aykırı" nın gerçekten yanlış olduğunu hissediyorsanız ve sağlam bir istatistiksel yöntem kullanmak istemiyorsanız, onları eksik hale getirebilir ve olası bir çözüm olarak birden fazla takdiri kullanabilirsiniz. Değişken bağımlı bir değişken ise, sağlam bir seçenek sıralı regresyondur.

— Frank Harrell
kaynak

1

+1, iyi puanlar. OLR önerisi ilgimi çekiyor; Tukey 'in karesi gibi sağlam bir kayıp fonksiyonunu kullanmayı tercih etmenin bir nedeni var mı?

— dediklerinin - Eski Monica

2

Y

$Y$

Y

$Y$

9

Teklifin içinde çok sayıda kusur var. İşte belki en büyüğüdür.

Veri topladığınızı ve aşağıdaki değerleri gördüğünüzü varsayalım:

2, 3, 1

$2, 3, 1$

$6/3 = 2$

Sonra bir aykırı gelir:

2, 3, 1, 1000

$2, 3, 1, 1000$

Yani bunu ortalamanın yerine koyarsın:

2, 3, 1, 2

$2, 3, 1, 2$

Sıradaki numara iyi:

2, 3, 1, 2, 7

$2, 3, 1, 2, 7$

Şimdi ortalama 3'tür. Bekle bir dakika, ortalama şimdi 3'tür, ancak dördüncü değer olarak gerçekleştiği için 1000'i ortalama 2 ile değiştirdik. Örneklerin sırasını değiştirirsek ne olur?

2, 3, 1, 7, 1000

$2, 3, 1, 7, 1000$

$(2 + 3 + 1 + 7)/4 = 13/4$

Sorun, 1000 yerine ikame edilen yalancı veri olmasıdır bağımlı diğer veri. Örneklerin bağımsız ölçümleri temsil etmesi gerekiyorsa bu epistemolojik bir sorundur.

Öyleyse, varsayımlarınıza uymayan verileri yalnızca elinizde tutmamanız, aynı zamanda tahrifat yapmanız gibi bariz bir probleminiz var. İstenmeyen bir sonuç olduğunda, $n$ $n$ $n$ $n$ $n$

Temel olarak, uymayan sonuçları kesmek bir şeydir (ve deneycinin değişen ruh hali değişimlerine göre değil, bir algoritmaya göre tutarlı bir şekilde yapılırsa gerekçelendirilebilir).

Kesin tahrif edici sonuçlar felsefi, epistemolojik ve etik gerekçelerle sakıncalıdır.

Sonuçların nasıl kullanıldığı ile ilgili bazı hafifletici durumlar olabilir. Mesela, aykırı değerlerin bu ortalama ile ikame edilmesinin, kapalı devre bir kontrol sistemi kurmasını sağlayan bazı gömülü bilgisayar algoritmasının bir parçası olduğunu söyleyin. (Bazı sistem çıkışlarını örnekler, daha sonra kontrolü sağlamak için girişleri ayarlar.) Her şey gerçek zamandır ve bu nedenle eksik veriler yerine belirli bir süre boyunca bir şeyler sağlanmalıdır. Bu geçiştirme, aksaklıkların üstesinden gelmeye yardımcı oluyorsa ve sorunsuz çalışmayı sağlıyorsa, hepsi iyi.

İşte dijital telefondan başka bir örnek: PLC (paket kaybı gizleme). Bok olur ve paketler kaybolur, ancak iletişim gerçek zamanlıdır. PLC, doğru alınan paketlerden gelen son adım bilgilerine dayanarak sahte ses parçaları sentezler. Eğer bir konuşmacı ünlü "aaa" demişse ve sonra bir paket kaybolmuşsa, PLC, "aaa" 'yı çerçeve süresi boyunca ekstrapolasyonla eksik paketi doldurabilir (5 veya 10 milisaniye veya her neyse). "Aaa" konuşmacının sesini andırıyor. Bu, kötü olarak kabul edilen değerleri yerine koymak için bir "ortalama" kullanmaya benzer. Bu iyi bir şey; sesin girip çıkmasından daha iyi ve anlaşılırlığa yardımcı oluyor.

Verilerin geçmesi, başarısız işleri örtbas etmek için insanlara yalan söyleme programının bir parçasıysa, bu başka bir şeydir.

Yani, uygulamadan bağımsız olarak düşünemiyoruz: istatistikler nasıl kullanılıyor? Yer değiştirmeler geçersiz sonuçlara yol açar mı? Etik çıkarımlar var mı?

— çok geçmeden
kaynak

Telefon hikayesi çok ilginç, ancak eksik değerleri değiştirmek için savunulabilir enterpolasyon meselesi gibi görünüyor. Sadece tamamen yerel işlemlere ihtiyaç duyulduğundan ve yerel değişiklikler tüm veri kümesinin "analizine" ikincil olduğu için outlier değişimi ile bağlantı zahmetlidir.

— Nick Cox

2

Burada birçok ilginç fikir (+1). Bununla birlikte, değiştirme prosedürünün mutlaka sıralı olmadığına dikkat edin. Bir kişi bütün "aykırı noktaları" bir kerede tanımlayabilir ve hepsini geri kalanın ortalaması ile değiştirebilir. Bu Winsorizing'dan farklı olarak tutarlı bir prosedürdür.

— whuber

6

Cousineau ve Chartier tarafından yayınlanan bu makalede, aykırı değerlerin ortalama ile değiştirilmesi tartışılmaktadır.

http://www.redalyc.org/pdf/2990/299023509004.pdf

Onlar yazar:

Tabachnick ve Fidell (2007), eksik verilerin karşılık gelen hücrede kalan verilerin ortalamasıyla değiştirilmesini önermiştir. Bununla birlikte, bu prosedür popülasyonun yayılmasını azaltma, gözlenen dağılımı daha leptokurtik yapma ve muhtemelen bir tip I hata olasılığını arttırma eğiliminde olacaktır. Daha ayrıntılı bir teknik olan birden fazla çarpıtma, aykırı değerlerin (veya eksik verilerin) olası değerlerle değiştirilmesini içerir (Elliott ve Stettler, 2007; Serfling ve Dang, 2009).

Ayraçları ortalamayla değiştirme işlevine sahip bir R paketi “aykırı” vardır. Ayrıca, Google araştırmamda SPSS'nin de böyle bir işlevi olduğunu ima eden bir takım isabetler gördüm, ancak bu programa aşina değilim. Belki de konuları izlerseniz uygulamanın teknik temelini keşfedebilirsiniz.

Referanslar

Cousineau, D., ve Chartier, S. (2010). Aykırı değerlerin tespiti ve tedavisi: Bir derleme. Uluslararası Psikolojik Araştırmalar Dergisi, 3 (1), 58-67.

— Thomas
kaynak

"Ortalama" kelimesinin tüm tekrarlamaları için referansınızı aradım ve aykırı değerlerin ortalama ile değiştirilebileceği bir yer bulamadım . Bir şeyi kaçırdıysam, bu tartışmanın nerede gerçekleştiğini daha kesin olarak belirtebilir misiniz?

— whuber

1

Bağlantıyı değiştirdim çünkü işe yaramadı. Dokümanın 9. sayfasında yazar “Sahte bir faaliyetin net bir sonucu olan Aykırılıklar kaldırılmalıdır. Tabachnick ve Fidell (2007), eksik verileri, karşılık gelen hücrede kalan verilerin ortalamasıyla değiştirmeyi önerdiler. "

— Thomas

2

Teşekkürler: Şimdi anlıyorum. Bununla birlikte, bunu bir “tartışma” olarak tanımlamak - bazı artıları ve eksileri dengeleyebileceğini düşündüren - biraz yanıltıcı olabilir, çünkü bu bölüm ortalama değiştirme prosedürünü (a) yalnızca çok değişkenli uygulamalar için belirtir ve (b) yalnızca kusurlarını göstermek, bunun yerine birden fazla takdiri düşünmek için bir öneriyle sarar. (İlginç bir şekilde, bu prosedür için makalenin referansı kaynakçada bile görünmemektedir.)

— whuber

5

Evet, belirtilen referansın kaynakçada bulunmaması gariptir. "ANOVA Kullanarak Deneysel Tasarımlar" kitabı gibi görünüyor. Orijinal isteği yanıtlamaya ve aykırı değerler için ortalamanın yerine koyulması uygulamasına referanslar vermeye çalışıyordum. Bu makale hızlı bir aramada bulabildiğim tek şeydi ve OP'nin daha eksiksiz bir cevap bulabilmesi için gerekli ipuçlarını sağlayacağını umuyordum.

— Thomas

4

Aykırılıklarla uğraşırken akılda tutulması gereken en önemli şey, yararlı bilgi sağlayıp sağlamadıklarıdır. Düzenli olarak oluşmalarını beklerseniz, verileri veriden çıkarmak, modelinizin onları asla tahmin etmeyeceğini garanti eder. Elbette, modelin ne yapmasını istediğinize bağlı, ancak mutlaka düşürmemelisiniz. Önemli bilgiler içeriyorsa, onları hesaba katabilecek bir model düşünebilirsiniz. Bunu yapmanın basit ve basit bir yolu, güç yasası ilişkilerini açıklayabilecek değişkenlerin kayıtlarını almaktır. Alternatif olarak, onlar için hataların çok yönlü bir dağılımını içeren bir model kullanabilirsiniz.

Bunları kesmek istiyorsanız, olağan yollar ya onları düşürmek ya da aşırı değerleri kaldırmak için Winsorise etmektir . Elde bir ders kitabım yok ama Wiki bağlantıları daha fazla okumak istiyorsanız bazılarına atıfta bulunuyor. Uygulamalı istatistiklerle ilgili çoğu metin aykırı değerler hakkında bir bölüm içermelidir.

— jmz
kaynak

3

İstatistiklerdeki benzer iki yaklaşımın farkındayım.

Kesilmiş araçlar: Ortalamayı hesaplarken, verilerinizin en küçük ve en büyük gözlemini bırakırsınız (örneğin, yukarıdan aşağıya) $1%$ her; Bunu simetrik olarak yapmalısın!)
Winsorization: Kesilmiş ortama benzer, sadece aşırı gözlemleri değiştirirsiniz. Ancak onları düşürmek yerine, en büyük / en küçük olmayan gözlemle değiştirin. Bu genellikle kesimden biraz daha iyi çalışır.

Daha ayrıntılı örnekler için Wikipedia'ya bakınız:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Bunun, ortalamanın hesaplanması gibi bazı istatistikler için iyi çalıştığını unutmayın. Kırpılmış / lekelenmiş ortalama genellikle gerçek ortalamanın aritmetik ortalamasından daha iyi bir tahminidir. Diğer durumlarda, istatistiklerinizi mahvedebilir. Örneğin, varyansı hesaplarken, kırpma her zaman gerçek varyansınızı hafife alır. Aşırı gözlemlerin bazılarının hatalı olduğunu varsayarsak, Winsorization, biraz daha iyi çalışacaktır (muhtemelen hala hafife alınacaktır, ancak fazla değil).

Aşırı değerlerin ortalama ile değiştirilmesinin buraya nasıl sığabileceğini anlamıyorum.

Bununla birlikte, ilgili başka bir uygulama daha var: eksik değer tahmini . Outlier'ınızın kusurlu, değersiz veriler olduğunu varsayalım, böylece onu kaldırın. Daha sonra bir değerlendirme gerçekleştirdiğinizde, tipik bir ikame değer ortalama veya mod olur:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

— Anony-Mousse
kaynak

1

Asimetrik olarak kırpma, bilinen ve savunulabilir bir taktiktir.

— Nick Cox,

2

Aykırı değerlerin kullanımındaki geleneksel yaklaşım, modelinizi yalnızca "iyi" verilerde eğitilecek şekilde kaldırmaktır.

Ortalama değerin, bu aykırı değerlerin varlığından etkilendiğini unutmayın. Aykırı ayraçları , aykırı ayraçlar veri kümenizden çıkarıldıktan sonra hesaplanan ortalama ile değiştirirseniz , regresyon çizgisi (basit doğrusal regresyondan) egzersiz verilerinizin ortalamasından bile geçeceği için farketmez tahminleri olsa da, ki bu muhtemelen aykırı değerler olduğunu bildiğinize göre ne istediğinizi zıttır).

Yaklaşımınızın model üzerindeki etkisi, dış hattın etkisine (kaldıraç) bağlıdır. Sadece noktayı tamamen kaldırmak yerine, önerdiğiniz yaklaşıma karşı öneriyorum.

— David Marx
kaynak

4

Verilerin kaldırılması, kaldırma prosedürü objektif olmadığı ve öngörülerin alınacağı tüm gelecekteki verilere aynı prosedür uygulanmayacağı sürece bir önyargıya neden olacaktır.

— Frank Harrell

0

evet aykırı değerler, örneğin, yüksekliklerin veri setini alalım, örneğin 500 cm ve 400 cm gibi aykırı değerler alalım, sonra görünen bu veri noktalarını değiştirebiliriz. Verilerin kaydedilmesi sırasında meydana gelen bazı hatalardan dolayı veri seti. bu nedenle, deneyebileceğiniz seçenekler onu değiştirir: 1. veriyi Tüm rengin ortancasıyla değiştirin (aykırı değerlere eğilimli olduğu gibi, ortalama değil). 2. Sütun içerisindeki en Meydana gelen veri noktasıyla değiştirin. 3. Kategorik değerler ise, Cevap kodlamasını deneyebilirsiniz (burada kelimenin Olasılığını veya toplam kelime sayısına göre oluşan değerleri kaydedin).

— Sujit Jena
kaynak