Numune boyutundan, min ve maks değerlerinden normal bir dağılımı yeniden oluşturabilir miyim? Ortalamayı vekalet etmek için kullanabilirim

Bunun istatistiki olarak biraz ipucu olabileceğini biliyorum, ama bu benim sorunum.

Bir dizi veri var, yani bir değişkenin minimum, maksimum ve örnek boyutu. Bu verilerden bazıları için bir ortalama var, ama çok değil. Her bir aralığın değişkenliğini ölçmek ve ayrıca araçları karşılaştırmak için bu aralıkları birbirleriyle karşılaştırmak istiyorum. Dağılımın ortalama etrafında simetrik olduğunu ve verilerin Gauss dağılımına sahip olacağını varsaymak için iyi bir nedenim var. Bu nedenle, dağıtımın orta noktasını, yokken ortalama için bir vekil olarak kullanarak haklı çıkarabileceğimi düşünüyorum.

Ne yapmak istiyorum her aralık için bir dağıtım yeniden yapılandırmak ve daha sonra bu dağıtım için standart bir sapma veya standart hata sağlamak için kullanın. Sahip olduğum tek bilgi, bir örnekten gözlemlenen maksimum ve min ve ortalamanın vekili olarak orta noktadır.

Bu şekilde, her bir grup için ağırlıklı araçları hesaplayabilmeyi ve ayrıca sahip olduğum aralık verilerine ve varsayımlarıma (simetrik ve normal dağılım) dayanarak, her grup için de varyasyon katsayısını hesaplayabilmeyi umuyorum.

Bunu yapmak için R kullanmayı planlıyorum, bu yüzden herhangi bir kod yardımı da takdir edilecektir.

— green_thinlake
kaynak

Minimum ve maksimum ve maksimum değerler için neden verileriniz olduğunu söylediğinizi merak ediyordum; daha sonra yalnızca beklenen minimum ve maksimum değerleri hakkında bilgi sahibi olursunuz. Hangisi gözlemlenir veya beklenir?

— Scortchi - Monica'yı eski durumuna döndürün

Üzgünüm, bu benim hatam. Maksimum ve minimum veriler gözlenir (gerçek hayattaki nesnelerden ölçülür). Gönderiyi değiştirdim.

— green_thinlake

Yanıtlar:

En az ortak kümülatif dağılım fonksiyonu en yüksek ve bir örnek için ortalama bir Gauss dağılımından ve standart sapma olan $x_{(1)}$ $x_{(n)}$ $n$ $\mu$ $\sigma$

F (x_{(1)}, x_{(n)}; μ, σ) = Pr (X_{(1)} < x_{(1)}, X_{(n)} < x_{(n)}) = Pr (X_{(n)} < x_{(n)}) - Pr (X_{(1)} > x_{(1)}, X_{(n)} < x_{(n)} = Φ {(\frac{x_{(n)} - μ}{σ})}^{n} - {[Φ (\frac{x_{(n)} - μ}{σ}) - Φ (\frac{x_{(1)} - μ}{σ})]}^{n}

$F(x_{(1)},x_{(n)};\mu,\sigma) = \Pr(X_{(1)}<x_{(1)}, X_{(n)}<x_{(n)})\\ =\Pr( X_{(n)}<x_{(n)}) - \Pr(X_{(1)}>x_{(1)}, X_{(n)}<x_{(n)}\\ =\Phi\left(\tfrac{x_{(n)}-\mu}{\sigma}\right)^n - \left[\Phi\left(\tfrac{x_{(n)}-\mu}{\sigma}\right) -\Phi\left(\tfrac{x_{(1)}-\mu}{\sigma}\right)\right]^n$

burada standart Gauss CDF'sidir. & yönünden farklılaşma , eklem olasılık yoğunluk fonksiyonunu verir $\Phi(\cdot)$ $x_{(1)}$ $x_{(n)}$

f (x_{(1)}, x_{(n)}; μ, σ) = n (n - 1) {[Φ (\frac{x_{(n)} - μ}{σ}) - Φ (\frac{x_{(1)} - μ}{σ})]}^{n - 2} \cdot ϕ (\frac{x_{(n)} - μ}{σ}) \cdot ϕ (\frac{x_{(1)} - μ}{σ}) \cdot \frac{1}{σ^{2}}

$f(x_{(1)},x_{(n)};\mu,\sigma) =\\ n(n-1)\left[\Phi\left(\tfrac{x_{(n)}-\mu}{\sigma}\right) - \Phi\left(\tfrac{x_{(1)}-\mu}{\sigma}\right)\right]^{n-2}\cdot\phi\left(\tfrac{x_{(n)}-\mu}{\sigma}\right)\cdot\phi\left(\tfrac{x_{(1)}-\mu}{\sigma}\right)\cdot\tfrac{1}{\sigma^2}$

burada standart Gauss PDF'dir. Günlük içermeyen ve parametre içermeyen terimlerin alınması, günlük olasılığı işlevini verir $\phi(\cdot)$

ℓ (μ, σ; x_{(1)}, x_{(n)}) = (n - 2) \log [Φ (\frac{x_{(n)} - μ}{σ}) - Φ (\frac{x_{(1)} - μ}{σ})] + \log ϕ (\frac{x_{(n)} - μ}{σ}) + \log ϕ (\frac{x_{(1)} - μ}{σ}) - 2 \log σ

$\ell(\mu,\sigma;x_{(1)},x_{(n)}) =\\ (n-2)\log\left[\Phi\left(\tfrac{x_{(n)}-\mu}{\sigma}\right) - \Phi\left(\tfrac{x_{(1)}-\mu}{\sigma}\right)\right] + \log\phi\left(\tfrac{x_{(n)}-\mu}{\sigma}\right) + \log\phi\left(\tfrac{x_{(1)}-\mu}{\sigma}\right) - 2\log\sigma$

Bu çok izlenebilir görünmüyor ancak ayarlayarak değeri ne olursa olsun maksimize edildiğini görmek kolay , yani orta nokta — bir CDF'nin argümanı diğerinin argümanının negatifi olduğunda ilk terim maksimuma çıkarılır; ikinci ve üçüncü terimler, iki bağımsız normal değişkenin ortak olasılığını temsil eder. $\sigma$ $\mu=\hat\mu=\frac{x_{(n)}+x_{(1)}}{2}$

İkame log olasılık içine ve yazma verir $\hat\mu$ $r=x_{(n)}-x_{(1)}$

ℓ (σ; x_{(1)}, x_{(n)}, \hat{μ}) = (n - 2) \log [1 - 2 Φ (\frac{- r}{2 σ})] - \frac{r^{2}}{4 σ^{2}} - 2 \log σ

$\ell(\sigma;x_{(1)},x_{(n)},\hat\mu)=(n-2)\log\left[1 - 2\Phi\left(\tfrac{-r}{2\sigma}\right)\right] - \frac{r^2}{4\sigma^2} -2\log{\sigma}$

bulmak için bu ifadenin sayısal olarak maksimize edilmesi gerekir (örneğin optimize, R statpaketinden) . ( , burada sadece bağlı bir sabittir - belki nedenini gösterebileceğimden daha matematiksel olarak adroit olan biri.) $\hat\sigma$ $\hat\sigma=k(n)\cdot r$ $k$ $n$

Tahminler, eşlik eden bir kesinlik ölçüsü olmadan kullanılmaz. Gözlemlenen Fisher bilgileri sayısal olarak değerlendirilebilir (örneğin hessianR numDerivpaketinden) ve yaklaşık standart hataları hesaplamak için kullanılabilir:

I (μ) = - {\frac{\partial^{2} ℓ (μ; \hat{σ})}{(\partial μ)^{2}} |}_{μ = \hat{μ}}

$I(\mu)=-\left.\frac{\partial^2{\ell(\mu;\hat\sigma)}}{(\partial\mu)^2}\right|_{\mu=\hat\mu}$

I (σ) = - {\frac{\partial^{2} ℓ (σ; \hat{μ})}{(\partial σ)^{2}} |}_{σ = \hat{σ}}

$I(\sigma)=-\left.\frac{\partial^2{\ell(\sigma;\hat\mu)}}{(\partial\sigma)^2}\right|_{\sigma=\hat\sigma}$

için olasılık ve moment yöntemi tahminlerini önyargı (MLE tutarlı mı?), Varyans ve ortalama kare hatası açısından karşılaştırmak ilginç olacaktır . Minimum ve maksimuma ek olarak örnek ortalamanın bilindiği gruplar için de bir tahmin konusu vardır. $\sigma$

— Scortchi - Monica'yı eski durumuna döndürün
kaynak

+1. Sabit ekleme bir fonksiyonu olarak maksimumunun konumu değişmez log olasılık, ancak dönüştürerek ve değeri nereden, en üst düzeye çıkarır bazı olduğu işlev . Eşdeğer, sizin iddia ettiğiniz gibi. Başka bir deyişle, çalışılacak ilgili miktar, standart sapmanın (gözlemlenen) aralığa oranı veya eşit derecede iyi olması - Öğrenci aralığı ile yakından ilişkilidir .

2 \log (r)

$2\log(r)$

σ / r

$\sigma/r$

n

$n$

σ / r

$\sigma/r$

n \to k (n)

$n\to k(n)$

\hat{σ} = k (n) r

$\hat\sigma=k(n)r$

— whuber

@whuber: Teşekkürler! Gez ile açık görünüyor. Bunu cevaba ekleyeceğim.

— Scortchi - Monica'yı eski durumuna döndürün

Aralığı standart sapma / varyansla ilişkilendirmeniz gerekir. ortalama, standart sapma ve aralık olsun. Daha sonra normal dağılım için olasılık kütlesinin% ortalamadan 3 standart sapma içinde olduğunu görüyoruz . Bu, pratik bir kural olarak, çok yüksek olasılıkla, $\mu$ $\sigma$ $R=x_{(n)} - x_{(1)}$ $99.7$

μ + 3 σ \approx x_{(n)}

$\mu + 3\sigma \approx x_{(n)}$ ve

μ - 3 σ \approx x_{(1)}

$\mu - 3\sigma \approx x_{(1)}$

Elde ettiğimiz ilkinden ikincisini çıkarmak

6 σ \approx x_{(n)} - x_{(1)} = R

$6\sigma \approx x_{(n)} - x_{(1)}= R$ (bu arada, endüstride "altı sigma" kalite güvencesi metodolojisi geliyor). Ardından, standart sapma için ile çubuğun ortalamaları ifade ettiği bir tahmin elde edebilirsiniz . Bu, tüm alt numunelerin aynı dağıtımdan geldiğini varsaydığınızda ( beklenen aralıkları yazdığınızı yazdıysanız ). Her örnek farklı ortalama ve varyans ile farklı bir normalse, her örnek için formülü kullanabilirsiniz, ancak standart sapmanın tahmini değerindeki belirsizlik / olası yanlışlık çok daha büyük olacaktır.

\hat{σ} = \frac{1}{6} ({\bar{x}}_{(n)} - {\bar{x}}_{(1)})

$\hat \sigma = \frac 16 \Big(\bar x_{(n)} - \bar x_{(1)}\Big)$

Ortalama ve standart sapma için bir değere sahip olmak normal dağılımı tamamen karakterize eder.

— Alecos Papadopoulos
kaynak

Bu ne küçük için yakın bir yaklaşım ne de büyük için asimptotik bir sonuçtur .

n

$n$

n

$n$

— Scortchi - Monica'yı eski durumuna döndürün

@Stortchi İyi bir tahmin olduğunu söylemedim - ama eldeki sorunun niceliksel bir anlamını elde etmek için çok kaba bile olsa kolayca uygulanabilecek çözümlerin her zaman iyi olduğuna inanıyorum. karmaşık ve verimli yaklaşımlar, örneğin bu sorunun cevabının diğer cevabında özetlenen yaklaşımlar gibi.

— Alecos Papadopoulos

Ben "örnek aralığı beklentisi 200 için 1000 değerleri için standart sapmanın yaklaşık 6 katı olduğu ortaya çıkmaz ". Ama türetmenizde ince bir şey mi eksik, yoksa aralığı herhangi bir sayıya bölmeyi haklı çıkarmak iyi olmaz mı?

n

$n$

— Scortchi - Monica'yı eski durumuna döndürün

@Scortchi Yaklaşımın ruhu "hemen hemen tüm gerçekleşmelerin 6 sigmaya düşmesini beklersek, aşırı gerçekleşmelerin sınırın yakınında olmasını beklemek mantıklıdır" -bu gerçekten de bu kadar. Belki de çok eksik bilgi altında çalışmaya alışkınım ve bu konuda niceliksel bir şey söylemek zorundayım ... :)

— Alecos Papadopoulos

Daha fazla gözlemin ortalamanın düşeceğini ve daha iyi bir tahmin vereceğini söyleyebilirim . Bilmiyorum çünkü saçmalık. üzerindeki herhangi bir sayı , bazı değerleri için kabaca bir tahmin olacaktır .

10 σ

$10 \sigma$

\hat{σ} = \frac{R}{10}

$\hat\sigma=\frac{R}{10}$

1.13

$1.13$

n

$n$

— Scortchi - Monica'yı eski durumuna döndürün

Normal dağılımın maksimum dağılım fonksiyonunu elde etmek kolaydır (kodda “P.max.norm” a bakınız). Ondan (bazı matematik ile) kuantil işlevi alabilirsiniz (bkz. "Q.max.norm").

"Q.max.norm" ve "Q.min.norm" kullanarak N ile ilgili aralığın medyanını alabilirsiniz. Alecos Papadopoulos'un (önceki yanıtta) sunduğu fikri kullanarak sd'yi hesaplayabilirsiniz.

Bunu dene:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

— Vyga
kaynak

Bu yaklaşıma devam edilirken, ; burada , standart normal kümülatif dağıtım işlevidir & . Sen değerlerini tablo bulabileceğiniz küçük için sayısal integralini değerlendirmek veya için simüle istatistiksel proses kontrol literatüründe .

E (R) = σ \int_{- \infty}^{\infty} 1 - (1 - Φ (x))^{n} - Φ (x)^{n} d x = σ d_{2} (n)

$\operatorname{E} (R) = \sigma \int_{-\infty}^{\infty} 1-(1-\Phi(x))^n -\Phi(x)^n\, \mathrm{d} x = \sigma d_2(n)$

R

$R$

Φ (\cdot)

$\Phi(\cdot)$

d_{2}

$d_2$

n

$n$

n

$n$

— Scortchi - Monica'yı eski durumuna döndürün