Harmonik ortalama için standart sapma hesaplanabilir mi?


12

Harmonik ortalama için standart sapma hesaplanabilir mi? Standart sapmanın aritmetik ortalama için hesaplanabileceğini anlıyorum, ancak harmonik ortalamanız varsa, standart sapmayı veya CV'yi nasıl hesaplıyorsunuz?

Yanıtlar:


13

Harmonik ortalama rastgele değişkenlerin olarak tanımlanmaktadırHX1,...,Xn

H=11ni=1n1Xi

Kesirlerin anlarını almak dağınık bir iştir, bu yüzden ile çalışmayı tercih ederim . şimdi1/H

1H=1ni=1n1Xi
.

Merkezi limit teoreminde hemen bunu elde ederiz

n(H1EX11)N(0,VarX11)

elbette ve ise, değişkenlerinin aritmetik ortalamasıyla basit bir şekilde çalıştığımızdan .VarX11<XiYi=Xi1

Şimdi fonksiyonu için delta metodu kullanılarak o olsung(x)=x1

n(H(EX11)1)N(0,VarX11(EX11)4)

Bu sonuç asimtotiktir, ancak basit uygulamalar için yeterli olabilir.

Güncelleme @whuber haklı olarak işaret ettiği gibi, basit uygulamalar yanlış bir isimdir. Merkezi limit teoremi sadece mevcutsa geçerlidir, bu oldukça kısıtlayıcı bir varsayımdır.VarX11

Güncelleme 2 Bir örneğiniz varsa, standart sapmayı hesaplamak için, örnek anları formüle takın. Örnek için harmonik ortalama tahminiX1,...,Xn

H^=11ni=1n1Xi

ve örnek anları sırasıyla:EX11Var(X11)

μ^R=1ni=1n1Xiσ^R2=1ni=1n(1XiμR)2

burada karşılık gelir.R

Son olarak ın standart sapması için yaklaşık formülH^

sd(H^)=σ^R2nμ^R4

Aralıkta eşit olarak dağılmış rastgele değişkenler için bazı Monte-Carlo simülasyonları yaptım . İşte kod:[2,3]

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Boyutlandırılmış Nörnek örnekleri simüle ettim n. Her nboyutlandırılmış numune için standart tahmin (fonksiyon sdhm) tahmini hesapladım . Daha sonra, bu tahminlerin ortalamasını ve standart sapmasını, her bir örnek için tahmin edilen harmonik ortalamanın örnek standart sapması ile karşılaştırıyorum; bu, harmonik ortalamanın gerçek standart sapması olmalıdır.

Gördüğünüz gibi sonuçlar orta seviyede numune boyutları için bile oldukça iyi. Elbette düzgün dağılım çok iyi davranılmış bir sonuçtur, bu nedenle sonuçların iyi olması şaşırtıcı değildir. Diğer dağıtımların davranışını araştırmak için başkasına gideceğim, kodun adapte edilmesi çok kolay.

Not: Bu yanıtın önceki sürümünde, delta yöntemi, yanlış varyans sonucu bir hata oluştu.


2
@mpiktas Bu güzel bir başlangıç ​​ve CV düşük olduğunda bazı rehberlik sağlar. Ancak pratik, basit durumlarda bile CLT'nin uygulandığı açık değildir. Birçok değişkenin karşılıklılarının, değerlerinin sıfıra yakın olabileceği herhangi bir kayda değer olasılık olduğunda sonlu ikinci hatta ilk anlara sahip olmamasını beklerdim. Ayrıca, delta yönteminin, sıfıra yakın karşılıklı potansiyel olarak büyük türevleri nedeniyle uygulanmamasını beklerim. Böylece, yönteminizin çalışabileceği "basit uygulamaları" daha kesin bir şekilde karakterize etmeye yardımcı olabilir. BTW, "D" nedir?
whuber

@whuber, D varyans içindir, . Basit uygulamalar ile karşılıklılık ve varyansın varlığını ifade etmek istedim. Değerlerinin sıfıra yakın olabileceği kayda değer olasılıklı rastgele değişkenler için söylediğiniz gibi, karşılıklılık ortalama bile olmayabilir. Ama sonra orijinal sorunun cevabı hayır. OP'nin mevcut olduğunda standart sapmayı hesaplamanın mümkün olup olmadığını sorduğunu varsaydım. Çok fazla rastgele değişken için açıkça değil. DX=E(XEX)2
mpiktas

@whuber, BTX meraktan benim için oldukça standart bir gösterim, ancak biri Rus olasılık okulundan geldiğimi söyleyebilir. "Kapitalist Batı" da bu kadar yaygın değil mi? :)DX
mpiktas

@mpiktas Bu gösterimi hiç varyans görmedim. İlk tepkim nin diferansiyel bir operatör olmasıydı ! Standart gösterimler gibi anımsatıcıdır . V a r [ X ]DVar[X]
whuber

1
EL Lehmann ve Juliet Popper Shaffer'ın "Ters Dağılımlar" makalesi, tersine çevrilmiş rastgele değişkenlerin dağılımları ile ilgili ilginç bir okuma.
emakalic

2

Benim ilgili bir sorunun cevabı üzerinden nokta pozitif bir veri kümesinin harmonik ortalama bir (ağırlık ile kareler (WLS) tahmin az ağırlıklı ). Bu nedenle standart hatasını WLS yöntemlerini kullanarak hesaplayabilirsiniz. Bunun, basitlik, genellik ve yorumlanabilirliğin yanı sıra, regresyon hesaplamasında ağırlıklara izin veren herhangi bir istatistiksel yazılım tarafından otomatik olarak üretilmesi de dahil olmak üzere bazı avantajları vardır. 1 / x ixi1/xi

Başlıca dezavantajı, hesaplamanın yüksek eğimli alt dağılımlar için iyi güven aralıkları üretmemesidir. Bunun herhangi bir genel amaçlı yöntemle ilgili bir sorun olması muhtemeldir: harmonik ortalama, veri kümesinde küçük bir değerin bile varlığına duyarlıdır.

Bunu göstermek için, burada bir Gamma (5) dağılımından (mütevazi olarak çarpık olan) boyutunda bağımsız olarak üretilen örneğin ampirik dağılımları verilmiştir . Mavi çizgiler gerçek harmonik ortalamayı ( eşit ) gösterirken, kırmızı kesik çizgiler ağırlıklı en küçük kareler tahminlerini gösterir. Mavi çizgilerin etrafındaki dikey gri şeritler, harmonik ortalama için yaklaşık iki taraflı% 95 güven aralığıdır. Bu durumda, örneğin hepsinde CI gerçek harmonik ortalamayı kapsar. Bu simülasyonun tekrarları (rastgele tohumlarla), bu küçük veri kümeleri için bile kapsama alanının% 95'e yakın olduğunu gösterir.n = 12 4 2020n=12420

Rakamlar

İşte Rsimülasyon ve rakamlar için kod.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}

1

İşte Exponential r.v için bir örnek.

veri noktası için harmonik ortalama ,n

S=11ni=1nXi

Eğer olduğunu varsayalım , bir üstel rastgele değişkenin iid örnekleri . Üstel değişkenin toplamı bir Gama dağılımını takip edernXiExp(λ)n

i=1nXiGamma(n,θ)

burada . Ayrıca biliyoruz kiθ=1λ

1nGamma(n,θ)Gamma(n,θn)

Bu nedenle dağılımıS

SInvGamma(n,nθ)

Bu rv'nin varyansı (ve standart sapması) iyi bilinir, bkz . Örneğin burada .


3
ortalama için tanımınız wikipedia
uyuşmuyor

Üstel değerleri kullanmak, sorunu anlamak için iyi bir yaklaşımdır.
whuber

1
Bütün umutlar tamamen kaybolmaz. Xi ~ Exp (\ lambda) ise Xi ~ Gamma (1, \ lambda) yani 1 / Xi ~ InvGamma (1, 1 / \ lambda). Sonra "V. Witkovsky (2001) Ters gamma değişkenleri doğrusal bir kombinasyonunun dağılımını hesaplayın, Kybernetika 37 (1), 79-90" ve ne kadar yol aldığını görün!
tristan

0

Mpiktas'ın CLT'sinin sınırlı bir varyans gerektirdiğine dair bazı endişeler var . sıfır civarında pozitif yoğunluğa sahip olduğunda çılgın kuyrukları olduğu doğrudur . Ancak, harmonik ortalama kullanan birçok uygulamada, . Burada, ile sınırlanan size istediğiniz tüm anları veren!1/X1/XXX11/X1


0

Ne önerebilirim standart sapma yerine aşağıdaki formülü kullanmaktır:

σ=Ni=1N(1x^1xi)2,

burada . Bu formülle ilgili güzel bir şey, olduğunda en aza indirilmiş olması ve standart sapma ile aynı birimlere sahip olmasıdır ( aynı birimler ).x^=N1xix^=N1xix

Bu, üzerinden küçültüldüğünde alınan değer olan standart sapmaya benzer. . ortalama olduğunda en aza indirilir : .xxx=μ=11N(x^xi)2x^x^x^=μ=1Nxi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.