Medyanın standart hatası


14

Normal olmayan bir dağılıma sahip küçük bir örnek durumunda (python kullanıyorum) medyanın standart hatasını ölçmek istiyorsam aşağıdaki formül doğru mu?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

Yanıtlar:


12

@ Mary'nin bazı yorumlarına dayanarak aşağıdakilerin uygun olduğunu düşünüyorum. Örnek küçük olduğu için medyanı seçiyor gibi görünüyor.

Medyan seçtiyseniz, iyi bir gerekçe olmayan küçük bir örnek olduğu için. Medyanı seçersiniz çünkü medyan önemli bir değerdir. Ortalamadan farklı bir şey söylüyor. Bazı istatistiksel hesaplamalar için de seçebilirsiniz çünkü aykırı değer veya çarpıklık gibi bazı sorunlara karşı dayanıklıdır. Bununla birlikte, küçük numune boyutu, sağlam olduğu sorunlardan biri değildir. Örneğin, örnek boyutu küçüldüğünde, aslında eğrilmeye ortalamadan çok daha duyarlıdır.


Teşekkürler John! Aslında daha önce yazdığınız nedenden dolayı medyanı ortalamanın yerine kullanmayı seçtim. Farklı örneklerim var, hepsi gauss olmayan bir dağılıma sahip. 50'den fazla nokta içeren örnek var, diğerleri 10'dan az puan içeriyor, ancak hepsi için yorumunuzun geçerli olduğunu düşünüyorum, değil mi?
mary

Bu kadar az puanla, temel dağılım hakkında ne söyleyebileceğinizden emin değilim. 10'dan az içeren numuneleri 50 içeren numunelerle karşılaştırıyorsanız ve temel dağılım simetrik değilse, bir medyan bir tane olmasa bile bir etki gösterecektir, çünkü küçük örnekte büyük numuneden daha fazla önyargıya sahip olacaktır. Ortalama olmayacak.
John

Gelecekte sorularınızı daha iyi açıklayın ve gerçekten bilmeniz gerekenler hakkında daha fazla bilgi isteyin. Neden şimdiye kadar yaptığınızı söyleyin ve sahip olduğunuz verileri açıklayın. Çok daha iyi cevaplar alacaksınız.
John

1
" küçük örnek boyutu, sağlam olduğu sorunlardan biri değildir" tek başına +1 değerinde; gerisi bir bonus
Glen_b-Monica'yı

Nitekim Huber kitabında tek bir sağlamlık kavramının bulunmadığına işaret ediyor. Aykırı değerlere karşı sağlamlık vardır (ve medyan bunun için sağlamdır). Bununla birlikte başka bir görüş, ölçüm hatasına karşı sağlamlıktır ve bu ölçüm hatalarının ortalamasını aldığı için ortalamanın sağlam olduğu şey budur. Bununla birlikte, medyan, dağılımın ortasını kuyruklar kadar kötü etkileyebileceğinden, ölçüm hatası dalgalanmalarına karşı oldukça hassastır.
StasK

12

Sokal ve Rohlf bu formülü Biyometri kitaplarında verir (sayfa 139). "Uygulanabilirlik hakkındaki yorumlar" altında şunları yazıyorlar: Normal popülasyonlardan büyük örnekler. Bu yüzden, korkuyorum ki sorunuzun cevabı hayır. Ayrıca buraya bakınız .

Normal dağılımları olmayan küçük örneklerde medyan için standart hata ve güven aralıklarını elde etmenin bir yolu, önyükleme yapmaktır. Bu yazı , önyükleme için Python paketlerine bağlantılar sağlar.

Uyarı

@whuber, küçük örneklerde medyanın önyüklenmesinin çok bilgilendirici olmadığını, çünkü önyüklemenin gerekçeleri asimptotik olduğuna dikkat çekti (aşağıdaki yorumlara bakın).


Cevabınız için teşekkürler! Önyüklemenin bir alternatif olacağını biliyorum, sadece medyanın hatasını farklı bir şekilde ölçmenin bir yolu olup olmadığını tahmin ediyordum. CEAN'daki standart hata için de hayır mı (aynı küçük gauss olmayan örnek)?
mary

@mary Ortalamanın standart hatası için, Sokal ve Rohl "[...] sonlu varyansı olan herhangi bir popülasyon" için geçerli olduğunu yazar. Yani ortalamanın standart hatasının cevabı evet gibi görünüyor , hesaplayabilirsiniz. Sidenote: Bununla birlikte tanımlanmış bir varyans veya ortalamaya sahip olmayan dağılımlar (örn. Cauchy dağılımı) vardır ve bu gibi durumlarda SEM hesaplanamaz.
COOLSerdash

5
(+1) Ne yazık ki, küçük bir örneğin medyanını önyüklemek de çok bilgilendirici olmayacaktır - ve gereksizdir, çünkü basit bir hesaplama ile değiştirilebilir. (Herhangi bir sayısı için , kendinize sorun, bir bootstrap örneğinin yarısından fazlasının aşma şansı nedir? Bu cevabı almak kolaydır ve şimdi tahmin etmek için herhangi bir simülasyon çalıştırmanıza gerek yoktur.)ttt
whuber

@whuber Yorumunuz için teşekkürler. Bunu bilmek güzel. Cevabımdan küçük örneklerde ortanca önyükleme önerisini sildim.
COOLSerdash

1
Kötü bir tavsiye önermeye çalışmıyordum: Sadece (kaçınılmaz) sınırlamalarına işaret etmek istedim. Küçük örneklerden çok şey öğrenmek zordur. Ancak küçük örneklerin önyüklenmesi iki kat daha doludur, çünkü onu destekleyen teorik bir gerekçe yoktur (tüm gerekçe asimptotiktir).
whuber

12

Sihirli sayı 1,253 gelen asimptotik varyans formülü : burada gerçek ortanca ve o noktadaki gerçek yoğunluktur. mf(m)

As.Var.[m^]=14f(m)2n
mf(m)

Normal dışında herhangi bir dağılım için (ve mary bunun verilerinde şüpheli olduğunu kabul eder), farklı bir faktörünüz olacaktır. Ortanca tahminin edilmesi o kadar da önemli değildir, ancak cdf veya bunun gibi bir şeyin tersine çevrilmesine karşı eşit sayıda gözlem için orta değerler hakkında acı çekmeye başlayabilirsiniz. İlgili yoğunluk değeri , gerekirse çekirdek yoğunluk tahmin edicileri tarafından tahmin edilebilir . Genel olarak, üç yaklaşım alındığından, bu elbette nispeten şüphelidir:m^

  1. Varyans için asimptotik formülün küçük örnek için işe yaraması;
  2. Tahmini ortanca gerçek ortanca kadar yakın;
  3. Çekirdek yoğunluk tahmincisinin doğru bir değer vermesi.

Örnek boyutu ne kadar düşük olursa, o kadar şüpheli olur.


3
Belki de sihirli numaranınπ21.253314
Henry
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.