Gerekli örneklem büyüklüğünü, varyans hassasiyetini hesaplamak?


18

Arka fon

Bilinmeyen bir dağılımı olan bir değişkenim var.

500 örneğim var, ancak varyansın hesaplanabileceği kesinliği göstermek istiyorum, örneğin 500 örneklem boyutunun yeterli olduğunu iddia etmek. Ayrıca % hassasiyetle varyansı tahmin etmek için gerekli minimum örnek boyutunu bilmekle de ilgileniyorum X%.

Sorular

Nasıl hesaplayabilirim

  1. örnek büyüklüğü verilen varyans tahminimin kesinliği n=500nedir? ve n=N ?
  2. hassasiyeti ile varyansı tahmin etmek için gereken minimum örnek sayısını nasıl hesaplayabilirim X?

Misal

Şekil 1 , 500 örneğe dayanan parametrenin yoğunluk tahmini.

resim açıklamasını buraya girin

şekil 2 Burada, 500 örneğinden alınan alt örnekler kullanılarak hesapladığım y eksenindeki varyans tahminlerine karşı x eksenindeki örnek boyutunun bir grafiği verilmiştir. Fikir, tahminler n arttıkça gerçek varyansa yakınlaşacaktır. .

Bununla birlikte, için varyansı tahmin etmek için kullanılan örnekler n[10,125,250,500]birbirinden veya n [ 20 , 40 , 80'deki varyansı hesaplamak için kullanılan örneklerden bağımsız olmadığından tahminler geçerli değildir. ]n[20,40,80]

resim açıklamasını buraya girin


Bilinmeyen dağılımınızın bir bileşeni Cauchy dağılımı ise, varyansın tanımsız olduğunu unutmayın.
Mike Anderson

@Mike Ya da sonsuz sayıda başka dağıtım.
Glen_b

Yanıtlar:


11

Rasgele değişkenlerin için , varyans için tarafsız tahmin s 2 (payda ile bir n - 1 ) varyans varX1,,Xns2n1

Var(s2)=σ4(2n1+κn)

burada dağılımın fazla basıklığıdır (referans: Wikipedia ). Şimdi dağıtımınızın basıklığını da tahmin etmeniz gerekiyor. Bazen γ 2 olarak tanımlanan bir miktar kullanabilirsiniz ( Wikipedia'dan da ):κγ2

γ2=μ4σ43

Ben varsayalım ki kullanırsanız için bir tahmin olarak σ ve y 2 için bir tahmin olarak k için makul bir tahmin almak olduğunu, V bir r ( s 2 ) Ben tarafsız olduğunu garanti görmüyorum rağmen,. 500 veri noktanızın alt kümeleri arasındaki varyansla makul bir şekilde eşleşip eşleşmediğine bakın ve artık endişelenmiyorsa :)sσγ2κVar(s2)


tarafsız varyans tahmincisi için bir ders kitabı referansınız var mı? Daha fazla bağlam için Wikipedia'dan nereye gideceğimi bilmiyorum.
Abe

Burada standart metnim Rice yanımda değil, bu yüzden sayfa numarasını sizin için kontrol edemiyorum, ama orada olduğundan eminim. Wikipedia bunun da belirtilmesi gerektiğini öne sürüyor: Montgomery, DC ve Runger, GC: Mühendisler için uygulamalı istatistikler ve olasılık , sayfa 201. John Wiley & Sons New York, 1994.
Erik P.

bu konudaki yardımınız için teşekkürler. Bu cevap çok faydalı oldu ve varyans belirsizliğini ölçmek için bilgilendirici oldu - geçen gün denklemi yaklaşık 10 kez uyguladım. kütüphane ile hesaplamak kolaydır : kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe

Rice metninden sayfa numarasını bulmanızın bir şansı var mı? Casella ve Berger'de bulamıyorum. Biliyorsanız, birincil referans daha da iyi olurdu. Vikipedi sayfasına özellikle atıfta bulunulmuyor.
Abe

Hmmm ... Rice'ın da formülü yok gibi görünüyor. Buna dikkat edeceğim, ama bu noktada hiç referansım yok.
Erik P.

16

Bir varyansı öğrenmek zordur.

Birçok durumda bir varyansı iyi tahmin etmek (belki de şaşırtıcı bir şekilde) çok sayıda örnek alır. Aşağıda, bir iid normal örneğinin "kanonik" vakası için gelişimi göstereceğim.

Varsayalım , i = 1 , ... , n, bağımsız bir biçimde , N ( μ , σ 2 ) rastgele değişkenler. Bir arama 100 ( 1 - α ) % aralığının genişliği olacak şekilde varyans güven aralığı ρ s 2 , diğer bir deyişle genişlik 100 ρ % nokta tahmini. Örneğin, ρ = 1 / 2 , daha sonra CI genişlik noktası tahmini yarım değeri, örneğin, eğer birYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2s2=10, then the CI would be something like (8,13), having a width of 5. Note the asymmetry around the point estimate, as well. (s2 is the unbiased estimator for the variance.)

"The" (rather, "a") confidence interval for s2 is

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
where χ(n1)2β is the β quantile of the chi-squared distribution with n1 degrees of freedom. (This arises from the fact that (n1)s2/σ2 is a pivotal quantity in a Gaussian setting.)

We want to minimize the width so that

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
so we are left to solve for n such that
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

For the case of a 99% confidence interval, we get n=65 for ρ=1 and n=5321 for ρ=0.1. This last case yields an interval that is (still!) 10% as large as the point estimate of the variance.

If your chosen confidence level is less than 99%, then the same width interval will be obtained for a lower value of n. But, n may still may be larger than you would have guessed.

A plot of the sample size n versus the proportional width ρ shows something that looks asymptotically linear on a log-log scale; in other words, a power-law--like relationship. We can estimate the power of this power-law relationship (crudely) as

α^log0.1log1log5321log65=log10log5231650.525,

which is, unfortunately, decidedly slow!


This is sort of the "canonical" case to give you a feel for how to go about the calculation. Based on your plots, your data don't look particularly normal; in particular, there is what appears to be noticeable skewness.

But, this should give you a ballpark idea of what to expect. Note that to answer your second question above, it is necessary to fix some confidence level first, which I've set to 99% in the development above for demonstration purposes.


this is a very nice answer to my question. However, although I follow the calculation that you make for n|ρ, it is not exactly clear to me if the units for rho is percent in the solution n=65 for ρ<1; does this mean "ρ is less than 1×s2" or "ρ less than 1% of s2?
Abe

@Abe, updated and hopefully clarified in the process. There was one particularly bad typo in the previous version. Sorry about that.
cardinal

a very nice answer, but I chose the one from @Erik because it is more applicable to my problem (as my parameter is not normally distributed).
Abe

@Abe: Not a problem. That is what the checkmark is there for. My answer was (is) intended to be illustrative, more than anything. From what I can tell, it does still appear to be the only one that addresses both of your questions, and will be (asymptotically) correct even in the scenario that Erik outlines. (+1 to him well over a year ago.) :)
cardinal

You are correct and I am glad that I have now revisited your answer. I had ended up using the general calculation by @Erik, but now I see the value in the general solution. Plus, presenting the CI rather than SD will solve an issue with my audience being confused when seeing a statistic in the form of s(ss), not understanding what the variance of a variance is. So s[lcl,ucl] should make this more clear, and consistent with other statistical summaries. And it will be helpful to show asymmetry.
Abe

1

I would focus on the SD rather than the variance, since it's on a scale that is more easily interpreted.

People do sometimes look at confidence intervals for SDs or variances, but the focus is generally on means.

The results you give for the distribution of s2/σ2 can be used to get a confidence interval for σ2 (and so also σ); most introductory math/stat texts would give the details in the same section in which the ditribution of σ2 was mentioned. I would just take 2.5% from each tail.


(This reply came here after a duplicate question, framed somewhat differently, was merged.)
whuber

1

The following solution was given by Greenwood and Sandomire in a 1950 JASA paper.

Let X1,,Xn be a random sample from a N(μ,σ2) distribution. You will make inferences about σ using as (biased) estimator the sample standard deviation

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.