Lognormal dağılımın moment tahmincisi yanlılığı


25

Bir lognormal dağılımın örneklemesini ve örneklemesini ve anları anlarını iki yöntemle tahmin etmeye çalışan bazı sayısal deneyler yapıyorum :XLN(μ,σ)E[Xn]

  1. örnek ortalamasına bakmakXn
  2. Tahmin ve için örnek bir yöntem kullanarak , ve daha sonra bir lognormal dağılım için, var olduğu gerçeğini kullanarak .μσ2log(X),log2(X)E[Xn]=exp(nμ+(nσ)2/2)

Soru şudur :

Deneysel olarak, ikinci yöntemin, örnek sayısını sabit faktörden çok daha iyi sonuç verdiğini ve bazı faktör T ile değerini artırdığımı tespit ediyorum . Bu durum için basit bir açıklama var mı?μ,σ2

X ekseninin T olduğu bir rakam ekliyorum, y ekseni ise değerlerini karşılaştırarak değerleridir. Tahmini değerlere (turuncu çizgi). yöntem 1 - mavi noktalar, yöntem 2 - yeşil noktalar. y ekseni günlük ölçeğindeE[X2]E[X2]=exp(2μ+2σ2)

$ \ Mathbb {E} [X ^ 2] $ için doğru ve tahmini değerler.  Mavi noktalar $ \ mathbb {E} [X ^ 2] $ (yöntem 1) için örnek yollardır, yeşil noktalar ise yöntem 2'yi kullanarak tahmini değerlerdir. Turuncu çizgi bilinen $ \ mu $, $ \ değerinden hesaplanır. sigma $ yöntem 2 ile aynı denklemde. y ekseni kütük ölçeğinde

DÜZENLE:

Aşağıda, bir T için sonuçları elde etmek üzere asgari bir Mathematica kodu verilmiştir:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

Çıktı:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

yukarıda, ikinci sonuç, diğer iki sonucun altında olan örnek ortalamasıdır.r2


2
Bir yansız tahmin etmez değil mavi noktalar beklenen değer (turuncu eğri) yakın olması gerektiğini ima. Bir tahminci, çok düşük olma olasılığı yüksek ve çok küçük olma olasılığı yüksek (belki de ufukta küçük) olma ihtimaline karşı tarafsız olabilir. T arttıkça ortaya çıkan şey budur ve varyans çok büyük bir ilerledikçe (cevabımı görün).
Matthew Gunn

Tarafsız tahmin edicileri nasıl elde edebileceğinizi öğrenmek için, lütfen stats.stackexchange.com/questions/105717 adresini ziyaret edin . Cevap ve yorumlarda, ortalama ve varyansın UMVUE değerleri verilmiştir.
whuber

Yanıtlar:


22

O zamandan beri bu sonuçlarda şaşırtıcı bir şey var.

  1. İlk yöntem tarafsız bir tahmincisi içerir , yani sahip bunun anlamı olarak. Bu nedenle mavi noktalar beklenen değer etrafında olmalıdır (turuncu eğri);1E[X2] E[X2]
    1Ni=1NXi2
    E[X2]
  2. ikinci yöntem, , yani önyargılı bir tahmincisidir. ve tarafsız tahmin edicileri olan ve ve sırasıyla yeşil noktalar hizalanacak böylece garip turuncu eğri ile.D [ exp ( n μ + n 2 σ 2 / 2 ) ] > exp ( n μ + ( n σ ) 2 / 2 ) μE[X2]
    E[exp(nμ^+n2σ^2/2)]>exp(nμ+(nσ)2/2)
    μ^σ^²μσ²

fakat sayısal hesaplamalardan değil, sorundan kaynaklanıyorlar: R deneyini tekrarladım ve aşağıdaki resmi aynı renk koduyla ve bölünmüş her tahminciyi temsil eden ve s 'lerin aynı dizisiyle gerçek beklenti ile:μTσT

10⁶ log-normal simülasyonlara dayanan iki ampirik ikinci an

İşte karşılık gelen R kodu:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

Bu nedenle, ikinci ampirik anın, ve arttıkça bir çöküşü söz konusudur; bu, bahsedilen ikinci ampirik anın , arttıkça varyansındaki büyük artışa atfediyorum .μσμσ

Bu meraklı fenomeni açıklamam şudur: açıkça in ortalaması olsa da, merkezi bir değer değildir: aslında nin medyanı eşittir . Rastgele değişken temsil ederken olarak , açıktır ki, isimli büyük Yeterince, rasgele değişkeni neredeyse hiçbir zaman büyüklüğünde değildir . Diğer bir deyişle, eğer birE[X2]X2X2e2μX2exp{2μ+2σϵ}ϵN(0,1)σσϵσ2XLN(μ,σ)

P(X2>E[X2])=P(log{X2}>2μ+2σ2)=P(μ+σϵ>μ+σ2)=P(ϵ>σ)=1Φ(σ)
, keyfi olarak küçük olabilir.

1
Ben de şaşırdım. Sonuçları ile minimal bir kod ekliyorum (Mathematica)
user29918

Tamam. Teşekkürler! Bazı rakamlar koyarak, artık yetersiz örneklem büyüklüğümün görev için uygun olmadığını görüyorum!
user29918

2
@ user29918: Üzgünüm, örneklem büyüklüğünü problem olarak görmüyorum, bunun yerine log-normal'in işe yaramaz hale geldiği için sonsuzluğa büyüdüğünde çok eğri hale geldiği gerçeğini görüyorum . σ
Xi'an

2
@ Xi'an İyi şeyler! . Bu, kelimelerle ifade etmeye çalıştığım (tam olarak kesin olmayan) denklemlerde, “ arttıkça, bir gözlemin ortalamanın altında olma olasılığı artar (ve büyük için kesin) artar . Aslında, olasılık o kadar yüksektir ki, tüm numunenin ortalamanın altında olması muhtemeldir! P(X2>E[X2])=1Φ(σ)σσ
Matthew Gunn

2
Bu tür asimptotik, anları doğru şekilde hesaplamak için gereken simülasyon sayısının ile üssel olarak hızlı büyümesi nedeniyle çok yararlı değildir . σ
Xi'an,

13

Hem user99218 hem de Xi'an'ın arazilerinin tutarlı olduğunu gösteren bazı incirleri atacağımı düşündüm. Şekil 1, kullanıcının 1818 yaptığını çizmiştir ve Şekil 2 (aynı verilere dayanarak), Xi'an'ın komploları için yaptığı şeyi yapmaktadır. Aynı sonuç, farklı sunum.

Olan şu ki, T arttıkça, varyanslar çok büyük hale geliyor ve tahminci , Powerball Lotto'nun popülasyon ortalamasını Loto biletleri satın alarak tahmin etmeye çalışıyor! Zamanın büyük bir yüzdesi, getiriyi küçümseyecek (hiçbir örnek gözlem jackpotu çarpmadığı için) ve sürenin küçük bir yüzdesini alacaksınız (büyük olasılıkla örnekte bir büyük ikramiye kazanan olduğu için). Örnek ortalama tarafsız bir tahmin ancak binlerce ve binlerce çizim ile bile kesin olması beklenmiyor! Aslında, lotoyu kazanmanın zorlaştığı ve zorlaştığı için, örnek ortalamanız nüfus ortalamasının altında olacak ve zamanın büyük çoğunluğu.1nixi2

Diğer Yorumlar:

  1. Gelmez bir yansız tahmin değil tahmin edicisi yakın olması bekleniyor! Mavi noktaların beklentiye yakın olması gerekmez . Örneğin. rastgele seçilen tek bir gözlem popülasyon ortalamasının tarafsız bir tahminini verir, ancak bu tahmin edicinin yakın olması beklenmez.
  2. Mesele varyans kesinlikle astronomik hale geldikçe ortaya çıkıyor. Varyansın saçmalık haline gelmesiyle, ilk yönteme yönelik tahminler sadece birkaç gözlemdir. Aynı zamanda, küçük, küçük, büyük, büyük bir sayı olasılığını yaşamaya başlarsınız ...
  3. Bu sezgisel bir açıklamadır. Xi'an'ın daha resmi bir türevi var. Sonucu , büyüdükçe, binlerce gözlemde bile ortalamanın üzerinde bir gözlem çizmenin inanılmaz derecede olası olduğunu ima ediyor . "Lotoyu kazanmak" dilim, olan bir olayı ifade eder . P(X2>E[X2])=1Φ(σ)σX2>E[X2]görüntü tanımını buraya girin

görüntü tanımını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.