MLE'nin ortalamanın önyargılı bir tahminini ürettiği bir örnek var mı?


17

Önyargılı olan ortalamanın MLE tahmincisine bir örnek verebilir misiniz?

MLE tahmincilerini genel olarak düzenlilik koşullarını ihlal ederek bozan bir örnek aramıyorum.

İnternette görebildiğim tüm örnekler varyansa işaret ediyor ve ortalama ile ilgili hiçbir şey bulamıyorum.

DÜZENLE

@MichaelHardy, belirli bir önerilen model altında MLE kullanarak tekdüze dağılım ortalamasının önyargılı bir tahminini aldığımız bir örnek verdi.

ancak

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

MLE'nin, önerilen başka bir model altında, ortalamanın muntazam bir şekilde minimum tarafsız bir tahmincisi olduğunu ileri sürmektedir.

Bu noktada, model nötr olan örnek bir ortalama tahmin edicinin aksine, çok varsayılmış bir modele bağlıysa, MLE tahminiyle ne anlama geldiğini hala net değilim. Sonunda nüfus hakkında bir şey tahmin etmekle ilgileniyorum ve varsayılmış bir modelin parametresinin tahminini gerçekten umursamıyorum.

DÜZENLEME 2

@ChristophHanck modelin ek bilgi içeren önyargı gösterdiği gibi MSE'yi azaltmayı başaramadı.

Ayrıca ek sonuçlarımız var:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (slayt 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (slayt 5)

"Eğer efficient'nin en verimli bir tarafsız tahmincisi ˆθ varsa (yani unbiased tarafsız ve CRLB'ye eşit ise), o zaman maksimum tahmin yöntemi bunu üretecektir."

"Dahası, eğer etkili bir tahminci varsa, ML tahmincisidir."

Serbest model parametrelerine sahip MLE tarafsız ve verimli olduğu için, tanım gereği bu "" En Çok Olabilirlik Tahmincisi?

DÜZENLEME 3

@AlecosPapadopoulos'un matematik forumunda Half Normal dağılımına sahip bir örneği var.

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

Tek tip durumda olduğu gibi parametrelerinin hiçbirini tutturmaz. Ortalama kestiricinin yanlılığını göstermese de, bunun yerleştiğini söyleyebilirim.


10
Sıfır ve teta üzerinde bir üniforma ortalaması.
Christoph Hanck

1
"Nüfus hakkında bir şeyler tahmin etmek" ile "varsayılmış bir modelin parametresi" arasındaki farkınızı takip edemem. Tüm parametrik istatistiklerde, bir popülasyonu bazı parametrelerle parametrelendiririz. Tabii ki, bu yüzden yanlış tanımlama sorunları ile karşılaşabiliriz, ancak bu konu ile ilgili görünmüyor.
Christoph Hanck

5
Örneğin, bir popülasyon, ortalama ve varyans (örneğin normal bir popülasyon için yeterli olacaktır) gibi parametreleri / momentleri ile karakterize edilebilir. Ve: İnsanların sizinle bu forumdaki herkesten daha fazla veya daha az bilgiç olduğunu düşünmüyorum.
Christoph Hanck

2
Eğer "parametre" ve "ortalama" arasında geçişin belirgin el çabukluğu konusunda mutsuz hissediyorsanız , yoğunluk 1 ile ortalama cinsinden belirli bir negatif olmayan dağılımı tanımlayayım.μ12μ verdiği destek üzerine[0,2μ]...
Gümüş Balık

1
Düzenlemeniz 2 ile ilgili olarak, bu sonuçların birçoğu, örnek iş parçasının parametreye bağlı olduğu bu iş parçacığında tartışılan tek tip örnek için tatmin olmayan düzenlilik koşulları altında türetilir.
Christoph Hanck

Yanıtlar:


32

Christoph Hanck, önerdiği örneğin ayrıntılarını yayınlamadı. I o aralık üniform dağılım anlamına gelir almak [0,θ], bir iid örnek göre X1,,Xn boyutunun daha fazla n=1.

Ortalama θ/2 .

Ortalamanın MLE değeri max{X1,,Xn}/2.

olduğu için önyargılıdır ,Pr(max<θ)=1, dolayısıyla E(max/2)<θ/2.

Not: Belki de ortalama en iyi yansız tahmincisinin örnek ortalama olmadığını , n + 1θ/2 olduğunu belirtmeliyiz .Örnek ortalaması bir kötü bir tahmin olupθ/2Bazı numuneler için, örnek ortalaması daha az olduğu için1

n+12nmax{X1,,Xn}.
θ/2ve açık bir şekilde mümkün değildirθ/2daha az olmasıen fazla/2PS sonunda12max{X1,,Xn},θ/2max/2.

Pareto dağılımının böyle bir durum olduğundan şüpheleniyorum. Olasılık ölçüsü: Beklenen değerα

α(κx)α dxx for x>κ.
Beklenen değerin MLE değeri nαα1κ. buradamin=min{X1,,Xn}.
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

I haven't worked out the expected value of the MLE for the mean, so I don't know what its bias is.


12
Cagdas, It's not legitimate to ask for a countexample and then deny that you would propose something else! It's like asking for an example of a fruit that is not red, being shown a blueberry, and then saying it doesn't count because you don't like blueberries.
whuber

7
That's not relevant to the question you asked.
whuber

8
@CagdasOzgenc : Whether the MLE is biased or not depends on the model. There's no such thing as an MLE without a model. And if you alter the model, you alter the MLE.
Michael Hardy

8
@CagdasOzgenc Here's a socratic question: the sample mean is an unbiased estimator of what? You need a model to have a parameter to be estimating.
Matthew Drury

9
The mean of an i.i.d. sample is an unbiased estimator of the population mean, but one cannot speak of a maximum-likelihood estimator of anything without more structure than what is needed to speak of an unbiased estimator of something.
Michael Hardy

18

Here's an example that I think some may find surprising:

In logistic regression, for any finite sample size with non-deterministic outcomes (i.e. 0<pi<1), any estimated regression coefficient is not only biased, the mean of the regression coefficient is actually undefined.

This is because for any finite sample size, there is a positive probability (albeit very small if the number of samples is large compared with the number of regression parameters) of getting perfect separation of outcomes. When this happens, estimated regression coefficients will be either or . Having positive probability of being either or implies the expected value is undefined.

For more on this particular issue, see the Hauck-Donner-effect.


1
This is quite clever. I wonder if the MLE of logistic regression coefficients is unbiased conditional on the nonoccurence of the Hauck-Donner effect?
gung - Reinstate Monica

3
@gung: Short answer: ignoring the Hauck-Donner effect, there is still upward bias in absolute regression coefficients (i.e. negative coefficients have downward bias, positive have upward bias). Interestingly, there appears to be a bias toward 0.5 in estimated probabilities. I've started writing up about it on this post, but haven't put up my results on the biases of the estimated probabilities.
Cliff AB

10

Although @MichaelHardy has made the point, here is a more detailed argument as to why the MLE of the maximum (and hence, that of the mean θ/2, by invariance) is not unbiased, although it is in a different model (see the edit below).

We estimate the upper bound of the uniform distribution U[0,θ]. Here, y(n) is the MLE, for a random sample y. We show that y(n) is not unbiased. Its cdf is

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
Thus, its density is
fy(n)(x)={nθ(xθ)n1for0xθ0else
Hence,
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDIT: It is indeed the case that (see the discussion in the comments) the MLE is unbiased for the mean in the case in which both the lower bound a and upper bound b are unknown. Then, the minimum Y(1) is the MLE for a, with (details omitted) expected value

E(Y(1))=na+bn+1
while
E(Y(n))=nb+an+1
so that the MLE for (a+b)/2 is
Y(1)+Y(n)2
with expected value
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDIT 2: To elaborate on Henry's point, here is a little simulation for the MSE of the estimators of the mean, showing that while the MLE if we do not know the lower bound is zero is unbiased, the MSEs for the two variants are identical, suggesting that the estimator which incorporates knowledge of the lower bound reduces variability.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

Because Wikipedia is proposing a different model to begin with. That's where my confusion lies.
Cagdas Ozgenc

Yes, but once we adjust to the special case discussed here, namely a=0, we are back at square 1. In that case, we do not need the sample minimum for estimation anymore, as we know that the lower bound is zero, so that the MLE of the midpoint (=median=mean) simply becomes (max+0)/2 again.
Christoph Hanck

2
I have not worked out the details, but the MLE in that model could be unbiased if the minimum overestimates the lower bound by the same amount as the maximum underestimates the maximum, so that the midpoint is being estimated without bias.
Christoph Hanck

4
@CagdasOzgenc: unbiasedness is not the only or even the most important measure of better. By knowing one end of the support precisely, you may lose the balance between errors in estimating the mean, but you end up with (for example) a better estimate of the range
Henry

6
Maximum likelihood estimators are not always "best" across all criteria for small sample sizes. So what? They don't pretend to be, either. If you want to use a different estimator for your problem that has better properties according to some criterion for sample sizes that are in the neighborhood of your actual sample size, you're free to do so. I do so, and so do other people. No one is claiming that using MLE is justified in all situations just because it's MLE.
jbowman

5

Completing here the omission in my answer over at math.se referenced by the OP,

assume that we have an i.i.d. sample of size n of random variables following the Half Normal distribution. The density and moments of this distribution are

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ

4

The famous Neyman Scott problem has an inconsistent MLE in that it never even converges to the right thing. Motivates the use of conditional likelihood.

Take (Xi,Yi)N(μi,σ2). The MLE of μi is (Xi+Yi)/2 and of σ2 is σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.


2
While this example holds true, this actually defies one of the basic regularity conditions for asymptotic results of MLE's: that k/n0, where k is the number of parameters estimated and n is the sample size.
Cliff AB

1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO

3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.