Bir günlük dönüşümünden sonra standart hatayı hesaplama


19

Normal olarak dağıtılan rastgele bir sayı kümesi düşünün:

x <- rnorm(n=1000, mean=10)

Ortalamayı ve ortalamadaki standart hatayı bilmek istiyoruz, böylece aşağıdakileri yapıyoruz:

se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x)   # something near 0.03 units

Harika!

Bununla birlikte, orijinal dağılımımızın normal bir dağılımı takip ettiğini bilmediğimizi varsayalım. Verileri günlüğe dönüştürüyoruz ve aynı standart hata hesaplamasını yapıyoruz.

z <- log(x, base=10)
mean(z) # something near 1 log units
se(z)   # something near 0.001 log units

Havalı, ama şimdi cevabımızı birimler DEĞİL günlüğe almak için geri dönüştürmemiz gerekiyor.

10^mean(z) # something near 10.0 units
10^se(z)   # something near 1.00 units

Benim sorum: Normal bir dağıtım için, standart hata, dağıtımın kendisinden hesaplanmasına veya dönüştürülmesine, hesaplanmasına ve geri dönüştürülmesine bağlı olarak neden farklılık gösterir? Not: dönüşümden bağımsız olarak araçlar aynı çıktı.

DÜZENLEME # 1: Nihayetinde, normal olarak dağıtılmamış veriler için bir ortalama ve güven aralıkları hesaplamakla ilgileniyorum, bu nedenle yerel birimlerine geri dönüştürme de dahil olmak üzere dönüştürülmüş verilerde% 95 CI'nin nasıl hesaplanacağı konusunda bazı rehberlik verebilirseniz , Takdir ediyorum!
SON DÜZENLEME # 1

EDIT # 2:% 95 güven aralıklarını elde etmek için kantil işlevi kullanmayı denedim:

quantile(x, probs = c(0.05, 0.95))     # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95))  # around [8.3, 11.6]

Yani, bu aynı cevaba yaklaştı, ki bu iyi. Ancak, bu yöntemin kullanılması, "küçük" örnek boyutlarına sahip normal olmayan veriler kullanılarak tam olarak aynı aralığı sağlamaz:

t <- rlnorm(10)
mean(t)                            # around 1.46 units
10^mean(log(t, base=10))           # around 0.92 units
quantile(t, probs = c(0.05, 0.95))                     # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95)))  # around [0.209, 4.28]

Hangi yöntem "daha doğru" olarak kabul edilir. Birisinin en muhafazakar tahmini seçeceğini tahmin ediyorum.

Örnek olarak, normal olmayan veriler (t) için bu sonucu,% 95 güven aralığı [0.211, 4.79] olan ortalama 0.92 birime sahip olarak rapor eder misiniz?
SON DÜZENLEME # 2

Zaman ayırdığınız için teşekkürler!


1
SE, SD'nin N'nin kareköküne bölünmesiyle elde edilir. Sadece N. değil
Penguin_Knight

3
Teşekkürler! Bu sorunu çözdüm. Yaşadığım sorun yine de var.
şaşkın

Yanıtlar:


12

İlk hesaplamayla ilgili asıl sorun, sd ( Y ) gibi olmasının iyi bir nedeni olmamasıdır . Genellikle oldukça farklıdır.esd(log(Y))sd(Y)

Bazı durumlarda, genel bir tahminini hesaplayabilir den sd ( log ( Y ) ) aracılığı Taylor açılımı .sd(Y)sd(log(Y))

Var(g(X))(g(μX))2σX2.

log ölçeğinde rastgele değişken olduğunu düşünürsek , burada g ( X ) = exp ( X )Xg(X)=exp(X)

Eğer Var(exp(X))exp(μX)2σX2

sonra sd(exp(X))exp(μX)σX

Bu kavramlar örnekleme dağılımlarına dayanır.

Standart sapma, örneğin örnekte olduğu gibi ortalamaya kıyasla gerçekten küçükse, bu makul bir şekilde işe yarar.

> mean(y)
[1] 10
> sd(y)
[1] 0.03
> lm=mean(log(y))
> ls=sd(log(y))
> exp(lm)*ls
[1] 0.0300104 

Bir CI'yı bir parametre , bu bitiş noktalarını dönüştürerek çalışır.

E(exp(X))exp(μX)(1+σX2/2)(c.exp(L),c.exp(U))L,Uc1+σX2/2

Verileriniz günlük ölçeğinde yaklaşık olarak normalse, verileri lognormal ortalama için bir aralık üretme sorunu olarak değerlendirmek isteyebilirsiniz.


1
Teşekkürler Glen_b. Bunu istatistik dersinde hiç öğrenmedim.
şaşkın

2
E[f(X)]f(μX)+f(μX)2σX2=exp(μX)(1+σX22)
exp(μx)σX2E[exp(X)]

Teşekkürler @Dezmond. Evet doğru. Cevabıma bir düzeltme ekleyeceğim, bunun sonuna yakın kısmı oldukça karışık.
Glen_b

0

Geometrik ortama benzer şekilde geometrik standart hatayı etkili bir şekilde istediğiniz gibi görünüyor exp(mean(log(x))) .

Bunu şu şekilde hesaplamak makul görünse de:

exp(sd(log(x)/sqrt(n-1)))

Siz ve diğerleri, bunun birkaç nedenden ötürü doğru olmadığını belirttiniz. Bunun yerine şunu kullanın:

exp(mean(log(x))) * (sd(log(x))/sqrt(n-1))

Hangi geometrik ortalama log-standart hatayla çarpılır. Bu, "doğal" standart hatayı oldukça iyi bulmalıdır.

Kaynak: https://www.jstor.org/stable/pdf/2235723.pdf

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.