Maksimum Olabilirlik Tahmin Edicilerinin Türetilmesi
Elimizdeki varsayalım rastgele boyut her vektörleri, p : X ( 1 ) , X ( 2 ) , . . . , X ( m ), burada her rasgele vektör p değişkenleri arasında bir gözlem (veri noktası) olarak yorumlanabilir . Her X ( i ) çok değişkenli Gauss vektörleri olarak kullanılıyorsa:mpX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
parametreleri bilinmiyor. Tahminlerini elde etmek için maksimum olabilirlik yöntemini kullanabilir ve günlük olabilirlik işlevini en üst düzeye çıkarabiliriz.μ,Σ
Rasgele vektörlerin bağımsızlığı ile, verilerin derz yoğunluğunun olduğuna dikkat edin . . . , M } bireysel yoğunluklarının ürün Π m i = 1 f X ( i ) ( x ( i ) , μ , Σ ) . Logaritmayı almak log-olasılık fonksiyonunu verir{X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
karsanmas μμ^
İle ilgili olarak türevini almak ve aşağıdaki matris taşı kimlik kullanımı yapacak sıfıra eşit:μ
,wA'ya
bağlı değilseveAsimetrikse.∂wTAw∂w=2AwwAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Which is often called the sample mean vector.
Deriving Σ^
Deriving the MLE for the covariance matrix requires more work and the use of the following linear algebra and calculus properties:
- The trace is invariant under cyclic permutations of matrix products: tr[ACB]=tr[CAB]=tr[BCA]
- Since xTAx is scalar, we can take its trace and obtain the same value: xtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
Combining these properties allows us to calculate
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Which is the outer product of the vector x with itself.
We can now re-write the log-likelihood function and compute the derivative w.r.t. Σ−1 (note C is constant)
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Equating to zero and solving for Σ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Sources