Normal dağılımın parametrelerini tahmin etmek: ortalama yerine medyan?


15

Normal dağılım parametrelerini tahmin etmek için ortak yaklaşım, ortalama ve örnek standart sapma / varyansını kullanmaktır.

Ancak, bazı aykırı değerler varsa, medyan ve medyandan medyan sapması çok daha sağlam olmalıdır, değil mi?

Bazı veri kümeleri ben, tahmin normal dağılım çalıştı klasik çok daha iyi bir uyum sağlıyor gibi görünmektedir N ( μ , σ ) ortalama kullanılarak ve RMS sapması.N(median(x),median|xmedian(x)|)N(μ^,σ^)

İçin herhangi bir neden var mı yok Veri kümesindeki bazı aykırı vardır varsayarsak ortancasını kullanılır? Bu yaklaşım için bir referans biliyor musunuz? Google'da yapılan hızlı bir arama, burada medyan kullanmanın yararlarını tartışan yararlı sonuçlar bulamadı (ancak açıkçası, "normal dağıtım parametresi tahmini medyanı" çok spesifik bir arama terimi kümesi değildir).

Ortanca sapma, taraflı mı? N - 1 ile çarpmalı mıyım önyargıyı azaltmak için?n1n

Gama dağıtımı veya Üstel olarak değiştirilmiş Gauss dağıtımı (parametre tahmininde çarpıklığa ihtiyaç duyan ve aykırı değerler bu değeri gerçekten bozuyor) gibi diğer dağıtımlar için benzer sağlam parametre tahmin yaklaşımlarını biliyor musunuz?


2
Eğer aykırı değerleriniz varsa, dağılımınız gerçekten Gauss normal olmayabilir. Bu elbette sorunuza cevap vermiyor, ama IMO, bu her zaman eğlendirmek için bir olasılık.
sds

2
Basit, temiz, matematiksel bir dağılımım yok. Doğası gereği dağınık gerçek verilerim var. Hiçbir dağıtım mükemmel bir uyum olmayacaktır, çünkü artık durumu analitik olarak ele alamazsınız. Ve aykırı değerler aslında benim ilgim. :-)
Erich Schubert

Yanıtlar:


15

Kontamine bir Gauss dağılımından çizilen verileri içeren bir örnekte , med yerine | x - med ( x ) | deli ( x ) nerede :madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

dir; burada, sağlamak için tasarlanmış bir tutarlılık faktör olduğu D ( deli ( X ) 2 ) = Var ( x ) x başlangıçta Gauss tarafından yapıldığı uncontaminated-- olan (Walker , H. (1931)).(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

Bu durumda örnek ortalama yerine kullanmamak için herhangi bir neden düşünemiyorum . (Gauss at!) Alt verimi deli kullanmak için bir neden olabilir deli sizin örnekte. Bununla birlikte, deli için eşit derecede sağlam ve yüksek verimli alternatifler vardır . Bunlardan biri Q nmedmadmadmadQn. Bu tahmincinin yanında başka avantajları da vardır. Ayrıca aykırı değerlere karşı çok duyarsızdır (aslında deliler kadar duyarsızdır). Deliğin aksine, bir konum tahmini etrafında inşa edilmemiştir ve verilerin kirlenmemiş kısmının dağılımının simetrik olduğunu varsaymaz. Deli gibi, sipariş istatistiklerine dayanır, böylece örneğinizin altında yatan dağıtımda hiçbir an olmadığında bile her zaman iyi tanımlanır. Deli gibi, Basit ve açık bir formu vardır. Kızgın için bile, tarif ettiğiniz örnekte yerine örnek standart sapmayı kullanmak için hiçbir neden görmüyorum ( Q n hakkında daha fazla bilgi için Rousseeuw ve Croux 1993'e bakınız ).QnQn

xΓ(ν,λ)

med(x)λ(ν1/3)

ve

mad(x)λν

ν>1.5

ν^=(med(x)mad(x))2

ve

λ^=mad(x)2med(x)

Tam bir türev için Chen ve Rubin'e (1986) bakınız.

  • J. Chen ve H. Rubin, 1986. Gama ve Poisson dağılımlarının medyan ve ortalaması arasındaki farkın sınırları, Statist. Probab. Lett., 4, 281-283.
  • PJ Rousseeuw ve C. Croux, 1993. Amerikan İstatistik Derneği Medyan Mutlak Sapma Dergisi'ne alternatifler, Cilt. 88, No. 424, sayfa 1273-1283
  • Walker, H. (1931). İstatistiksel Yöntem Tarihinde Yapılan Çalışmalar. Baltimore, MD: Williams & Wilkins Co. s.24-25.

1
Φ1(0.75)11.4826

@ErichSchubert: haklısın: İkinci tersi unuttum ... düzeltildi.
user603

2
n/(n1)

1
@whuber: bunun için teşekkürler, şimdi cümlenin 'bu ruhta benzer ' olduğunu kolayca anlayabiliyorum. Kaldırdım.
user603

1
ExNormal bölümünü ayrı bir soru haline getirdim : stats.stackexchange.com/questions/48907/… Ama sizin için bir tane daha var: LogNormal dağıtım - log uygulayarak işleyin, sonra normal dağıtımda olduğu gibi devam et?
Erich Schubert

7

İddia ettiğiniz gibi, veriler, bazı küçük aykırı değerlerin dışında normal ise, medyan ve medyan mutlak sapma, brüt hatalara karşı sağlam olacaktır, ancak harici olmayan verilerdeki bilgileri çok verimli kullanmaz.

Bazı bilseydin önsel aşırı değerlerin oranının üzerinde bağlandım olabilir Döşeme ortalama ve söz konusu oranda Winsorize standart sapma. Böyle bir bilgi gerektirmeyen bir alternatif, M-tahmin edicilerinin konum için kullanılması ve varyans için ilgili miktarların kullanılması olacaktır. Varsayımlarınız doğruysa verim kazancı (veriler, aykırı değerlerin çok küçük bir yüzdesi dışında gerçekten normal olması gibi) bazı durumlarda önemli olabilir.

Ortanca sapma, standart sapmanın bir tahmini olarak önyargılıdır - ancak gibi değilnn-1ayarı; düzeltilmemiş örnek ortalama karesi asimptotik olarak varyansa gider, ancak örnek medyan mutlak sapması asimptotik olarak popülasyon standart sapmasına gitmez; Gerekirse bir sabit ile çarpın basitçe almak için tutarlılık . Bunu yaptıktan sonra, hala düzeltilmemiş ortalama kareyle aynı anlamda önyargılı küçük bir örnek .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.