Maksimum Olabilirlik Tahmin Edicileri - Çok Değişkenli Gauss


20

bağlam

Çok Değişkenli Gauss, Makine Öğreniminde sıkça görülür ve aşağıdaki sonuçlar, türevleri olmayan birçok ML kitap ve dersinde kullanılır.

Bir matris şeklinde verilen veriler X boyutları m×p , biz veri aşağıdaki varsayarsak p -variate Gauss parametrelerle dağılımı ortalama μ ( p×1 ) ve kovaryans matrisi Σ ( p×p ) Maksimum Olabilirlik Tahmin olan tarafından verilen:

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Çok değişkenli Gaussian bilgisinin birçok ML kursu için bir ön koşul olduğunu anlıyorum, ancak bir çok öz-öğrenicinin istatistiklerin etrafında zıpladığını hissettiğim için, kendi kendine yeten bir cevapta tam türev almanın yararlı olacağını düşünüyorum. stackexchange ve math.stackexchange web siteleri cevap arıyor.


Soru

Çok değişkenli Gauss için Maksimum Olabilirlik Tahmincilerinin tam türevi nedir


Örnekler:

Doğrusal Diskriminant Analizi hakkındaki bu ders notları (sayfa 11) veya bunlar ders sonuçlarını kullanır ve önceki bilgileri alır.

Kısmen cevaplanan veya kapatılan birkaç mesaj da vardır:

Yanıtlar:


24

Maksimum Olabilirlik Tahmin Edicilerinin Türetilmesi

Elimizdeki varsayalım rastgele boyut her vektörleri, p : X ( 1 ) , X ( 2 ) , . . . , X ( m ), burada her rasgele vektör p değişkenleri arasında bir gözlem (veri noktası) olarak yorumlanabilir . Her X ( i ) çok değişkenli Gauss vektörleri olarak kullanılıyorsa:mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

parametreleri bilinmiyor. Tahminlerini elde etmek için maksimum olabilirlik yöntemini kullanabilir ve günlük olabilirlik işlevini en üst düzeye çıkarabiliriz.μ,Σ

Rasgele vektörlerin bağımsızlığı ile, verilerin derz yoğunluğunun olduğuna dikkat edin . . . , M } bireysel yoğunluklarının ürün Π m i = 1 f X ( i ) ( x ( i ) , μ , Σ ) . Logaritmayı almak log-olasılık fonksiyonunu verir{X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

karsanmas μμ^

İle ilgili olarak türevini almak ve aşağıdaki matris taşı kimlik kullanımı yapacak sıfıra eşit:μ

,wA'ya bağlı değilseveAsimetrikse.wTAww=2AwwAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

Which is often called the sample mean vector.

Deriving Σ^

Deriving the MLE for the covariance matrix requires more work and the use of the following linear algebra and calculus properties:

  • The trace is invariant under cyclic permutations of matrix products: tr[ACB]=tr[CAB]=tr[BCA]
  • Since xTAx is scalar, we can take its trace and obtain the same value: xtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

Combining these properties allows us to calculate

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

Which is the outer product of the vector x with itself.

We can now re-write the log-likelihood function and compute the derivative w.r.t. Σ1 (note C is constant)

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

Equating to zero and solving for Σ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Sources


Alternative proofs, more compact forms, or intuitive interpretation are welcome !
Xavier Bourret Sicotte

In the derivation for μ, why does Σ need to be positive definite? Does it seem enough that Σ is invertible? For an invertible matrix A, Ax=0 only when x=0?
Tom Bennett

To clarify, Σ is an m×m matrix that may have finite diagonal and non-diagonal components indicating correlation between vectors, correct? If that is the case, in what sense are these vectors independent? Also, why is the joint probability function equal to the likelihood? Shouldn't the joint density, f(x,y), be equal to the likelihood multiplied by the prior, i.e. f(x|y)f(y)?
Mathews24

1
@TomBennett the sigma matrix is positive definite by definition - see stats.stackexchange.com/questions/52976/… for the proof. The matrix calculus identity requires the matrix to be symmetric, not positive definite. But since positive definite matrices are always symmetric that works
Xavier Bourret Sicotte

1
Yes indeed - independence between observations allow to get the likelihood - the wording may be unclear faie enough - this is the multivariate version of the likelihood. The prior is still irrelevant regardless
Xavier Bourret Sicotte

5

An alternate proof for Σ^ that takes the derivative with respect to Σ directly:

Picking up with the log-likelihood as above:

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
where Sμ=i=1m(x(i)μ)(x(i)μ)T and we have used the cyclic and linear properties of tr. To compute /Σ we first observe that
Σlog|Σ|=ΣT=Σ1
by the fourth property above. To take the derivative of the second term we will need the property that
Xtr(AX1B)=(X1BAX1)T.
(from The Matrix Cookbook, equation 63). Applying this with B=I we obtain that
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
because both Σ and Sμ are symmetric. Then
Σ(μ,Σ)mΣ1Σ1SμΣ1.
Setting this to 0 and rearranging gives
Σ^=1mSμ.

This approach is more work than the standard one using derivatives with respect to Λ=Σ1, and requires a more complicated trace identity. I only found it useful because I currently need to take derivatives of a modified likelihood function for which it seems much harder to use /Σ1 than /Σ.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.