Aritmetik ortalama neden log-normal dağılımdaki dağılım ortalamasından daha küçüktür?


13

Yani, log-normal dağıtılmış rasgele değişkenler üreten rastgele bir süreç var . Karşılık gelen olasılık yoğunluk fonksiyonu:X

Lognormal olasılık yoğunluk fonksiyonunu temsil eden şekil

O orijinal dağılımın birkaç anının dağılımını tahmin etmek istedim , diyelim ki 1. an: aritmetik ortalama. Bunu yapmak için 10000 aritmetik ortalama 10000 tahminini yapabilmem için 10000 rasgele değişken 10000 kez çizdim.

Bu anlamı tahmin etmenin iki farklı yolu vardır (en azından anladığım bu: Yanlış olabilirim):

  1. X¯=i=1NXiN.
  2. σμ
    μ=i=1Nlog(Xi)Nσ2=i=1N(log(Xi)μ)2N
    X¯=exp(μ+12σ2).

Sorun, bu tahminlerin her birine karşılık gelen dağılımların sistematik olarak farklı olmasıdır:

İki tahminci, resimde gösterildiği gibi farklı dağılımlar verir.

"Düz" ortalama (kırmızı kesikli çizgi olarak temsil edilir) genellikle üstel formdan (yeşil düz çizgi) türetilene göre daha düşük değerler sağlar. Her iki araç da aynı veri kümesinde hesaplanır. Bu farkın sistematik olduğunu lütfen unutmayın.

Bu dağılımlar neden eşit değil?


μσ

μ=3σ=1.5

emin, bu sonuçlarınızı çoğaltma içindir.
Christoph Hanck

4
xiyixi/nexp(yi/n)exp(sy2/2)sy2yi. Bu nedenle, herhangi bir ana dağılım için (pozitif rastgele sayıları tanımlayan) noktalı kırmızı eğri, sabit yeşil eğrinin solunda olmalıdır .
whuber

Ortalamanın büyük bir kısmı çok büyük sayıların küçük bir olasılığından geliyorsa, sonlu bir örnek aritmetik ortalama, yüksek olasılıklı nüfus ortalamasını hafife alabilir. (Beklentide önemsizdir
Matthew Gunn

Yanıtlar:


12

Nexp[μ+1/2σ2]

X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμσ^2pσ2

Ancak MLE tarafsız değildir.

Nμ^σ^2N=100N1μσ2

E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

N=100

N=1000

resim açıklamasını buraya girin

Şununla oluşturuldu:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

exp(μ+σ2/2)

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

NN <- c(50,100,200,500,1000,2000,3000,5000)

resim açıklamasını buraya girin

NNN=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 

N

1
N=100N

2
Ben de iki yöntem arasında böyle büyük bir fark olduğunu şaşırıyorum, ancak bu örnek "sadece ortalama şeyler" korkunç neden göstermek için kesinlikle mükemmel !
JohnW

1
@JohnW, MLE'nin neden daha küçük varyansa sahip olduğuna dair biraz analitik bir açıklama ekledim.
Christoph Hanck

1
NN
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.