Numune boyutundan, min ve maks değerlerinden normal bir dağılımı yeniden oluşturabilir miyim? Ortalamayı vekalet etmek için kullanabilirim


14

Bunun istatistiki olarak biraz ipucu olabileceğini biliyorum, ama bu benim sorunum.

Bir dizi veri var, yani bir değişkenin minimum, maksimum ve örnek boyutu. Bu verilerden bazıları için bir ortalama var, ama çok değil. Her bir aralığın değişkenliğini ölçmek ve ayrıca araçları karşılaştırmak için bu aralıkları birbirleriyle karşılaştırmak istiyorum. Dağılımın ortalama etrafında simetrik olduğunu ve verilerin Gauss dağılımına sahip olacağını varsaymak için iyi bir nedenim var. Bu nedenle, dağıtımın orta noktasını, yokken ortalama için bir vekil olarak kullanarak haklı çıkarabileceğimi düşünüyorum.

Ne yapmak istiyorum her aralık için bir dağıtım yeniden yapılandırmak ve daha sonra bu dağıtım için standart bir sapma veya standart hata sağlamak için kullanın. Sahip olduğum tek bilgi, bir örnekten gözlemlenen maksimum ve min ve ortalamanın vekili olarak orta noktadır.

Bu şekilde, her bir grup için ağırlıklı araçları hesaplayabilmeyi ve ayrıca sahip olduğum aralık verilerine ve varsayımlarıma (simetrik ve normal dağılım) dayanarak, her grup için de varyasyon katsayısını hesaplayabilmeyi umuyorum.

Bunu yapmak için R kullanmayı planlıyorum, bu yüzden herhangi bir kod yardımı da takdir edilecektir.


2
Minimum ve maksimum ve maksimum değerler için neden verileriniz olduğunu söylediğinizi merak ediyordum; daha sonra yalnızca beklenen minimum ve maksimum değerleri hakkında bilgi sahibi olursunuz. Hangisi gözlemlenir veya beklenir?
Scortchi - Monica'yı eski durumuna döndürün

Üzgünüm, bu benim hatam. Maksimum ve minimum veriler gözlenir (gerçek hayattaki nesnelerden ölçülür). Gönderiyi değiştirdim.
green_thinlake

Yanıtlar:


11

En az ortak kümülatif dağılım fonksiyonu en yüksek ve bir örnek için ortalama bir Gauss dağılımından ve standart sapma olan x ( n ) n μ σx(1)x(n)nμσ

F(x(1),x(n);μ,σ)=Pr(X(1)<x(1),X(n)<x(n))=Pr(X(n)<x(n))Pr(X(1)>x(1),X(n)<x(n)=Φ(x(n)μσ)n[Φ(x(n)μσ)Φ(x(1)μσ)]n

burada standart Gauss CDF'sidir. & yönünden farklılaşma , eklem olasılık yoğunluk fonksiyonunu verirΦ()x(1)x(n)

f(x(1),x(n);μ,σ)=n(n1)[Φ(x(n)μσ)Φ(x(1)μσ)]n2ϕ(x(n)μσ)ϕ(x(1)μσ)1σ2

burada standart Gauss PDF'dir. Günlük içermeyen ve parametre içermeyen terimlerin alınması, günlük olasılığı işlevini verirϕ()

(μ,σ;x(1),x(n))=(n2)log[Φ(x(n)μσ)Φ(x(1)μσ)]+logϕ(x(n)μσ)+logϕ(x(1)μσ)2logσ

Bu çok izlenebilir görünmüyor ancak ayarlayarak değeri ne olursa olsun maksimize edildiğini görmek kolay , yani orta nokta — bir CDF'nin argümanı diğerinin argümanının negatifi olduğunda ilk terim maksimuma çıkarılır; ikinci ve üçüncü terimler, iki bağımsız normal değişkenin ortak olasılığını temsil eder.σμ=μ^=x(n)+x(1)2

İkame log olasılık içine ve yazma verir μ^r=x(n)x(1)

(σ;x(1),x(n),μ^)=(n2)log[12Φ(r2σ)]r24σ22logσ

bulmak için bu ifadenin sayısal olarak maksimize edilmesi gerekir (örneğin optimize, R statpaketinden) . ( , burada sadece bağlı bir sabittir - belki nedenini gösterebileceğimden daha matematiksel olarak adroit olan biri.)σ^σ^=k(n)rkn

Tahminler, eşlik eden bir kesinlik ölçüsü olmadan kullanılmaz. Gözlemlenen Fisher bilgileri sayısal olarak değerlendirilebilir (örneğin hessianR numDerivpaketinden) ve yaklaşık standart hataları hesaplamak için kullanılabilir:

I(μ)=2(μ;σ^)(μ)2|μ=μ^
I(σ)=2(σ;μ^)(σ)2|σ=σ^

için olasılık ve moment yöntemi tahminlerini önyargı (MLE tutarlı mı?), Varyans ve ortalama kare hatası açısından karşılaştırmak ilginç olacaktır . Minimum ve maksimuma ek olarak örnek ortalamanın bilindiği gruplar için de bir tahmin konusu vardır.σ


1
+1. Sabit ekleme bir fonksiyonu olarak maksimumunun konumu değişmez log olasılık, ancak dönüştürerek ve değeri nereden, en üst düzeye çıkarır bazı olduğu işlev . Eşdeğer, sizin iddia ettiğiniz gibi. Başka bir deyişle, çalışılacak ilgili miktar, standart sapmanın (gözlemlenen) aralığa oranı veya eşit derecede iyi olması - Öğrenci aralığı ile yakından ilişkilidir . 2log(r)σ/rnσ/rnk(n)σ^=k(n)r
whuber

@whuber: Teşekkürler! Gez ile açık görünüyor. Bunu cevaba ekleyeceğim.
Scortchi - Monica'yı eski durumuna döndürün

1

Aralığı standart sapma / varyansla ilişkilendirmeniz gerekir. ortalama, standart sapma ve aralık olsun. Daha sonra normal dağılım için olasılık kütlesinin% ortalamadan 3 standart sapma içinde olduğunu görüyoruz . Bu, pratik bir kural olarak, çok yüksek olasılıkla,μσR=x(n)x(1)99.7

μ+3σx(n)
ve

μ3σx(1)

Elde ettiğimiz ilkinden ikincisini çıkarmak

6σx(n)x(1)=R
(bu arada, endüstride "altı sigma" kalite güvencesi metodolojisi geliyor). Ardından, standart sapma için ile çubuğun ortalamaları ifade ettiği bir tahmin elde edebilirsiniz . Bu, tüm alt numunelerin aynı dağıtımdan geldiğini varsaydığınızda ( beklenen aralıkları yazdığınızı yazdıysanız ). Her örnek farklı ortalama ve varyans ile farklı bir normalse, her örnek için formülü kullanabilirsiniz, ancak standart sapmanın tahmini değerindeki belirsizlik / olası yanlışlık çok daha büyük olacaktır.
σ^=16(x¯(n)x¯(1))

Ortalama ve standart sapma için bir değere sahip olmak normal dağılımı tamamen karakterize eder.


3
Bu ne küçük için yakın bir yaklaşım ne de büyük için asimptotik bir sonuçtur . nn
Scortchi - Monica'yı eski durumuna döndürün

1
@Stortchi İyi bir tahmin olduğunu söylemedim - ama eldeki sorunun niceliksel bir anlamını elde etmek için çok kaba bile olsa kolayca uygulanabilecek çözümlerin her zaman iyi olduğuna inanıyorum. karmaşık ve verimli yaklaşımlar, örneğin bu sorunun cevabının diğer cevabında özetlenen yaklaşımlar gibi.
Alecos Papadopoulos

Ben "örnek aralığı beklentisi 200 için 1000 değerleri için standart sapmanın yaklaşık 6 katı olduğu ortaya çıkmaz ". Ama türetmenizde ince bir şey mi eksik, yoksa aralığı herhangi bir sayıya bölmeyi haklı çıkarmak iyi olmaz mı? n
Scortchi - Monica'yı eski durumuna döndürün

@Scortchi Yaklaşımın ruhu "hemen hemen tüm gerçekleşmelerin 6 sigmaya düşmesini beklersek, aşırı gerçekleşmelerin sınırın yakınında olmasını beklemek mantıklıdır" -bu gerçekten de bu kadar. Belki de çok eksik bilgi altında çalışmaya alışkınım ve bu konuda niceliksel bir şey söylemek zorundayım ... :)
Alecos Papadopoulos

4
Daha fazla gözlemin ortalamanın düşeceğini ve daha iyi bir tahmin vereceğini söyleyebilirim . Bilmiyorum çünkü saçmalık. üzerindeki herhangi bir sayı , bazı değerleri için kabaca bir tahmin olacaktır . 10σσ^=R101.13n
Scortchi - Monica'yı eski durumuna döndürün

1

Normal dağılımın maksimum dağılım fonksiyonunu elde etmek kolaydır (kodda “P.max.norm” a bakınız). Ondan (bazı matematik ile) kuantil işlevi alabilirsiniz (bkz. "Q.max.norm").

"Q.max.norm" ve "Q.min.norm" kullanarak N ile ilgili aralığın medyanını alabilirsiniz. Alecos Papadopoulos'un (önceki yanıtta) sunduğu fikri kullanarak sd'yi hesaplayabilirsiniz.

Bunu dene:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

2
Bu yaklaşıma devam edilirken, ; burada , standart normal kümülatif dağıtım işlevidir & . Sen değerlerini tablo bulabileceğiniz küçük için sayısal integralini değerlendirmek veya için simüle istatistiksel proses kontrol literatüründe . E(R)=σ1(1Φ(x))nΦ(x)ndx=σd2(n)RΦ()d2nn
Scortchi - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.