Normal olarak dağıtılan rastgele bir sayı kümesi düşünün:
x <- rnorm(n=1000, mean=10)
Ortalamayı ve ortalamadaki standart hatayı bilmek istiyoruz, böylece aşağıdakileri yapıyoruz:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Harika!
Bununla birlikte, orijinal dağılımımızın normal bir dağılımı takip ettiğini bilmediğimizi varsayalım. Verileri günlüğe dönüştürüyoruz ve aynı standart hata hesaplamasını yapıyoruz.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Havalı, ama şimdi cevabımızı birimler DEĞİL günlüğe almak için geri dönüştürmemiz gerekiyor.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Benim sorum: Normal bir dağıtım için, standart hata, dağıtımın kendisinden hesaplanmasına veya dönüştürülmesine, hesaplanmasına ve geri dönüştürülmesine bağlı olarak neden farklılık gösterir? Not: dönüşümden bağımsız olarak araçlar aynı çıktı.
DÜZENLEME # 1: Nihayetinde, normal olarak dağıtılmamış veriler için bir ortalama ve güven aralıkları hesaplamakla ilgileniyorum, bu nedenle yerel birimlerine geri dönüştürme de dahil olmak üzere dönüştürülmüş verilerde% 95 CI'nin nasıl hesaplanacağı konusunda bazı rehberlik verebilirseniz , Takdir ediyorum!
SON DÜZENLEME # 1
EDIT # 2:% 95 güven aralıklarını elde etmek için kantil işlevi kullanmayı denedim:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Yani, bu aynı cevaba yaklaştı, ki bu iyi. Ancak, bu yöntemin kullanılması, "küçük" örnek boyutlarına sahip normal olmayan veriler kullanılarak tam olarak aynı aralığı sağlamaz:
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Hangi yöntem "daha doğru" olarak kabul edilir. Birisinin en muhafazakar tahmini seçeceğini tahmin ediyorum.
Örnek olarak, normal olmayan veriler (t) için bu sonucu,% 95 güven aralığı [0.211, 4.79] olan ortalama 0.92 birime sahip olarak rapor eder misiniz?
SON DÜZENLEME # 2
Zaman ayırdığınız için teşekkürler!