Kesilmiş ortalama ve medyan


9

Acil servise yapılan tüm çağrıları ve ambulans departmanının yanıt sürelerini içeren bir veri setim var. Kayıt sürelerinde bazı hatalar olduğunu itiraf ettiler, çünkü kayıt yapmaya başlamadıkları (yani değer 0) ya da saati durduramadıkları (böylece değer çok yüksek olabilir).

Merkezi eğilimi öğrenmek istiyorum ve aykırı değerlerden kurtulmak için ortanca veya kesilmiş ortalama kullanmanın daha iyi olup olmadığını merak ediyordum.


1
İlk olarak, tüm geçersiz verileri silerdim (değer = 0). Sonra, nerede olduğumu görmek için verileri bir histogram veya kutu çizimiyle görselleştirirdim. Çünkü kötü verilerin % 10'una sahipseniz verileri körü körüne% 5
kırpamazsınız

Evet, ya da CDF'yi çiz. R'de bunu yapın: times = times [times> 0]; arsa (ecdf (kez))
Paul

Yanıtlar:


12

Kesilenin ne anlama geldiğini düşünün: Prototip durumda, önce verilerinizi artan sırayla sıralarsınız. Sonra alttan kırpma yüzdesine kadar sayılır ve bu değerleri atarsınız. Örneğin,% 10 oranında kesilmiş ortalama yaygındır; bu durumda, kümenizdeki tüm verilerin% 10'unu geçene kadar en düşük değerden sayılırsınız. Bu işaretin altındaki değerler bir kenara konur. Benzer şekilde, kırpma yüzdenizi geçene kadar en yüksek değerden geri sayın ve tüm değerleri bir kenara koyun. Artık orta% 80 ile kaldı. Bunun ortalamasını alıyorsunuz ve bu% 10 kesilmiş ortalamanız. (İki kuyruktan eşit olmayan oranları kırpabileceğinizi veya yalnızca bir kuyruğu kırpabileceğinizi unutmayın, ancak bu yaklaşımlar daha az yaygındır ve durumunuz için geçerli görünmemektedir.)

Şimdi,% 50 kesilmiş bir ortalama hesaplarsanız ne olacağını düşünün. Alt yarı, üst yarı gibi bir kenara bırakılır. Ortada (sıralı olarak) yalnızca tek bir değer kalacaksınız. Kesilmiş ortalamanız olarak bunun anlamını (yani, sadece bu değeri alırsınız) alacaksınız. Ancak, bu değerin medyan olduğunu unutmayın. Başka bir deyişle, medyan kesilmiş bir ortalamadır (% 50 kesilmiş bir ortalamadır). Sadece çok agresif. Aslında, verilerinizin% 99'unun kontamine olduğunu varsayar. Bu, nihai güç / verimlilik kaybı pahasına aykırı değerlere karşı en üst düzeyde koruma sağlar .

Tahminim medyan /% 50 kesilmiş bir ortalama, verileriniz için gerekli olandan çok daha agresiftir ve sizin için mevcut olan bilgilerden çok boşa gitmektedir. Var olan aykırı değerlerin bir oranı varsa, bu bilgiyi kırpma yüzdesini ayarlamak ve uygun kesilmiş ortalamayı kullanmak için kullanırdım. Kırpma yüzdesini seçmek için herhangi bir temeliniz yoksa, çapraz doğrulamayla bir tane seçebilir veya yalnızca bir kesmeli güçlü bir regresyon analizi kullanabilirsiniz.


1
Bunun ruhuna katılıyorum, ancak kesilen araçların mutlaka her kuyrukta eşit kesirleri kesmeye dayandığını ima etmek yanlış anlaşılabilir. Bu sadece yaygın bir prosedürdür ve prosedür yaklaşık olarak simetrik ancak muhtemelen yağ kuyruklu dağılımların bir referans durumu için tartışılmıştır, ancak hiçbir şekilde zorunlu değildir. Sadece bir kuyrukta düzeltme ile ilgili bir literatür vardır, bu da tüm şüpheli değerlerin kuyrukta olabileceği zaman mantıklıdır.
Nick Cox

@NickCox, iyi bir nokta. Bunu açıklığa kavuşturmak için küçük bir metin ekledim. Daha fazlasına ihtiyacı olduğunu düşünüyorsanız bana bildirin.
gung - Monica'yı eski

İyi görünüyor. Doğal olarak bir kuyrukta düzeltme, bir oranın sıfır olduğu eşit olmayan oranlarda özel bir durumdur.
Nick Cox

@NickCox, tabii, ama açık olmanın daha iyi olabileceğini düşündüm.
gung - Monica'yı eski

-1

Her şeyden önce, geçersiz verileri kaldırın.

İkinci olarak, aykırı değerleri, gözlemlenen değerler olduğu için kaldırmanıza gerek yoktur. Bazı durumlarda, yararlıdır (doğrusal regresyonda olduğu gibi), ancak sizin durumunuzda noktayı görmüyorum.

Son olarak, verilerinizin merkezini bulmak daha doğru olduğundan medyan kullanmayı tercih edin. Söylediğiniz gibi, ortalama aykırı değerlere duyarlı olabilir (kesilmiş ortalama kullanmak yanlı olabilir).


3
Konum tahmini belirli bir gerileme durumu olduğundan, ikincisinde aykırı değerlerin kaldırılmasının nasıl faydalı olabileceğini bilmek isterdim, ancak önceki durumda değil.
user603
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.