Varyansı hesaplamak için medyanı kullanma


10

Son derece çarpık olan 1-B rastgele değişkenim var. Bu dağılımı normalleştirmek için ortalamadan ziyade medyan kullanmak istiyorum. sorum şu: ortalama yerine formülde medyan kullanarak dağılımın varyansını hesaplayabilir miyim?

yani değiştirebilir miyim

Var(X)=[(Ximean(X))2]/n

ile

Var(X)=[(Ximedian(X))2]/n

Bunun arkasındaki akıl yürütme, varyansın bir dağılımın merkezi eğilimi olan bir yayılma ölçüsü olması, bir sorun olmamalı ama bu mantığı doğrulamak istiyorum.



1
Medyan değişkenlerinizi ortalayarak ve sonra MAD'ye (medyan mutlak sapma) bölerek, medyan standartlaştırılmış bir dağıtım oluşturabilirsiniz.
Mike Hunter

5
Bunu yapabilirsiniz! Ama bence bunu yüksek standart dışı olarak adlandırmak ve sadece sezgilerinizi değil, onu desteklemek için teori ve / veya simülasyonlara ihtiyacınız olduğunu öne sürmek adil olur. Standart tahminciden daha az dirençli olacağından şüpheleniyorum . Örneğin, sağ eğri bir durumda, medyan ortalamadan daha az olacaktır, bu nedenle (medyandan) en büyük kare sapmalar daha da büyük olacaktır! Ana nokta, eğer varyans çok güvenilmez ise, yaymanın ölçümünü varyansın farklı versiyonlarından ziyade oldukça farklı düşünmeniz gerekebilir.
Nick Cox

1
Ortogonal nokta: "normalleştiriyor" ölçeği bir şekilde ifade ediyor mu? konum) / ölçek, ya da bu normal (Gaussian) yakın yapmak anlamına mı geliyor?
Nick Cox

1
Bu yaklaşım doğal olarak tutarsızdır, çünkü ortalamanın medyan tarafından değiştirilmesiyle ele alınan problemler, yayılmanın sağlam bir tahmincisi yerine varyans kullanılarak büyütülür.
whuber

Yanıtlar:


9

Ortalama en aza indirir karesel hata (veya L2 normu, bkz burada ya burada ), ortalamadan tedbir mesafeye varyans için çok doğal seçim (bkz karesel hata kullanmaktır burada biz karesini neden). Diğer taraftan, medyan mutlak hatayı (L1 normu) en aza indirir, yani verilerinizin "ortasında" olan bir değerdir, bu yüzden medyandan ( Medyan Mutlak Sapma veya MAD olarak adlandırılır) mutlak mesafe bir medyan çevresindeki değişkenlik derecesinin daha iyi ölçülmesi. Bu ileti dizisinde bu ilişkiler hakkında daha fazla bilgi bulabilirsiniz .

Kısaca söylemek gerekirse, varyans MAD'ten verilerinizin merkezi noktasını nasıl tanımladıklarından farklıdır ve bu, etrafındaki veri noktalarının varyasyonunu nasıl ölçtüğümüzü etkiler. Değerlerin karesini almak aykırı değerlerin merkezi nokta (ortalama) üzerinde daha büyük etkiye sahip olmasını sağlarken, medyan durumunda tüm noktalar aynı etkiye sahiptir, bu nedenle mutlak mesafe daha uygun görünür.

Bu basit simülasyon ile de gösterilebilir. Ortalama ve medyandan kareleri alınmış değerleri karşılaştırırsanız, toplam kare mesafesi ortalamadan medyandan neredeyse her zaman daha küçüktür. Öte yandan, toplam mutlak mesafe ortancadan sonra ortalamadan daha küçüktür. Simülasyonu gerçekleştirmek için R kodu aşağıda belirtilmiştir.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

Böyle bir "varyansı" tahmin etmede ortalama yerine medyan kullanılması durumunda bu, geleneksel olarak yapıldığı gibi ortalama kullanmaktan daha yüksek tahminlere yol açacaktır.

Bu arada, L1 ve L2 normlarının ilişkileri bu konudaki gibi Bayes bağlamında da düşünülebilir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.