Bir matris fonksiyonunun türevinin bu hesaplanmasını haklı kılan nedir?


10

Andrew Ng'in makine öğrenimi kursunda şu formülü kullanıyor:

Atr(ABATC)=CAB+CTABT

ve aşağıda gösterilen hızlı bir kanıt yapar:

Atr(ABATC)=Atr(f(A)ATC)=tr(f()ATC)+tr(f(A)TC)=(ATC)Tf()+(Ttr(f(A)TC)T=CTABT+(Ttr(T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB

Kanıt herhangi bir yorum olmadan çok yoğun görünüyor ve bunu anlamakta zorlanıyorum. İkinci eşitlikten üçüncü eşitliğe tam olarak ne oldu?


, ve boyutları hakkında özel varsayımlar yapmalıdır , aksi takdirde bu formül genel olarak bir anlam ifade etmez. Sol tarafta rasgele negatif olmayan tamsayı için bir matrisi, a matrisi ve bir matrisi olmalıdır . Ancak, sağdaki ürünler olmadığı sürece tanımlanmaz . B C A i × j B j × j C i × m i , j , m i = mABCAi×jBj×jCi×mi,j,mi=m
whuber

@whuber anlıyorum. Varsayımlar göz önüne alındığında, hâlâ .
MoneyBall

İkinci ve üçüncü satır arasında . İkinci ve üçüncü satır arasında ürün kuralını kullandı. daha sonra kurtulmak için zincir kuralını kullanır . f ( )f(A)=ABf()
Brian Borchers

Yanıtlar:


14

Adımların birçoğunu kafa karıştırıcı hale getiren gösterimin ince ama ağır bir kötüye kullanımı vardır. Matris çarpımı, transpozisyon, izler ve türevlerin tanımlarına geri dönerek bu sorunu ele alalım. Açıklamaları atlamak isteyenler için, titiz bir gösterinin ne kadar kısa ve basit olabileceğini görmek için "Hepsini Bir Araya Koymak" bölümüne gidin.


Gösterim ve Kavramlar

boyutlar

ifadesinin bir matrisi olduğunda anlamlı olması için , bir (kare) matrisi olmalı ve bir matrisi olmalıdır, bu durumda ürün matrisi. İzi almak için (bu, çapraz öğelerin toplamıdır, ), sonra , bir kare matris yapar.A m × n B n × n C m × p m × p Tr ( X ) = i X i i p = m CABACAm×nBn×nCm×pm×pTr(X)=iXiip=mC

Türevler

" " gösterimi , bir ifadenin göre türevini belirtir . Genellikle farklılaşma fonksiyonlarında gerçekleştirilen bir işlemdir . noktasındaki türev, doğrusal bir dönüşüm . Bu vektör uzayları için bazlar seçildiğinde, böyle bir dönüşüm bir matrisi olarak temsil edilebilir . Burada durum böyle değil! A f : R NR M x R N D f ( x ) : R NR M M × NAAf:RNRMxRNDf(x):RNRMM×N

Vektör olarak matrisler

Bunun yerine , bir unsuru olarak kabul edilmektedir : katsayıları, uzunluğunda bir vektöre girilir (genellikle satır satır veya sütun sütun) . Fonksiyon nereden, gerçek değerlere sahip . Sonuç olarak, a olmalıdır bu üzerinde doğrusal bir çizgi gösteren bir sıra vektörü açıklanmıştır: matris . Ancak, sorudaki hesaplamalar doğrusal formları temsil etmenin farklı bir yolunu kullanır : katsayıları matrislerine geri alınır.R m n N = m n f ( A ) = Tr ( A B A C ) M = 1 D f ( x ) 1 × m n R m n m × nARmnN=mnf(A)=Tr(ABAC)M=1Df(x)1×mnRmnm×n

Doğrusal bir form olarak iz

Let bir sabit matrisi. Daha sonra, iz ve matris çarpımının tanımı ile,m × nωm×n

Tr(Aω)=i=1m(Aω)ii=i=1m(j=1nAij(ω)ji)=i,jωijAij

Bu katsayılar en genel olası bir doğrusal kombinasyonu ifade : aynı şekilde şekil bir matrisidir ve aralıksız olarak katsayısı ve sütun katsayısı lineer kombinasyon halinde kullanılabilmektedir. Çünkü , rolleri ve eşdeğer salgı veren, açık olabilirω A i j A i j ω i j A i j = A i j ω i j ω AAωAijAijωijAij=AijωijωA

(1)i,jωijAij=Tr(Aω)=Tr(ωA).

veya işlevlerinden herhangi biriyle sabit bir matris tanımlayarak , doğrusal olabilir uzayında formları olarak matrisler matrisler. (Bunları - ! Fonksiyonlarının türevleriyle karıştırmayın .)ωATr(Aω)ATr(ωA)m×nm×nRnRm


Türev Hesaplama

Tanım

İstatistiklerde karşılaşılan birçok matris fonksiyonunun türevleri, tanımdan en kolay ve güvenilir bir şekilde hesaplanır: gerçekten karmaşık matris farklılaşma kurallarına başvurmanıza gerek yoktur. Bu tanım söylüyor noktasında türevli lineer transformasyon vardır, ancak ve ancak şekildedirfxL

f(x+h)f(x)=Lh+o(|h|)

isteğe bağlı olarak küçük bir yer değiştirme . Küçük oh gösterimi , tarafından farkına yaklaşmada yapılan hatanın, yeterince küçük için boyutundan keyfi olarak daha küçük olduğu anlamına gelir . Özellikle, ile orantılı hataları her zaman göz ardı edebiliriz .hRNf(x+h)f(x)Lhhh|h|2

Hesaplama

Tanımı söz konusu işleve uygulayalım. Terimi içindeki iki çarpımı ile çarpma, genişletme ve yoksayma ,h

(2)f(A+h)f(A)=Tr((A+h)B(A+h)C)Tr(ABAC)=Tr(hBAC)+Tr(ABhC)+o(|h|).

türevini tanımlamak için , bunu formuna almalıyız . Sağdaki ilk terim ile zaten bu formdadır . Sağdaki diğer terim için biçimindedir . Bunu yazalım:L=Df(A)(1)ω=BACTr(XhC)X=AB

(3)Tr(XhC)=i=1mj=1nk=1mXijhkjCki=i,j,khkj(CkiXij)=Tr((CX)h).

Çağırma , yeniden olabilirX=AB(2)

f(A+h)f(A)=Tr(hBAC)+Tr(CABh)+o(|h|).

O ise bu biz türev düşünebilir anlamında at olmak bu matrisler oynamak çünkü eser formüllerde rolleri .fA

Df(A)=(BAC)+CAB=CAB+CAB,
ω(1)

Hepsini bir araya koy

İşte burada tam bir çözüm.

Let bir olmak , matris bir matrisini ve bir matris. Let . Let bir olmak keyfi küçük katsayılı matrisi. Çünkü (kimliğe göre ) olduğu türevlenebilir ve türevi matrisi tarafından belirlenen doğrusal formdurAm×nBn×nCm×mf(A)=Tr(ABAC)hm×n(3)

f(A+h)f(A)=Tr(hBAC)+Tr(ABhC)+o(|h|)=Tr(h(CAB)+(CAB)h)+o(|h|),
f
CAB+CAB.

Bu, işin sadece yarısını aldığından ve matrislerin ve izlerin yalnızca en temel manipülasyonlarını (çarpma ve transpozisyon) içerdiğinden, sonucun daha basit ve tartışmalı olarak daha gösterişli bir gösterimi olarak düşünülmelidir. Orijinal sunumdaki tek tek adımları gerçekten anlamak istiyorsanız, bunları burada gösterilen hesaplamalarla karşılaştırmanın verimli olduğunu görebilirsiniz.


1
Matrisler uyumlu boyutlarda olduğunda, genel olarak olduğunu bilmekte vardır. Bunu bilmek önemsiz bir adımdır (3). tr(ABC)=tr(CAB)
Brian Borchers

1
@Amoeba Mizahi olmaya çalışıp çalışmadığınızı söyleyemem. Ne sorunun ne de cevabın kısmi türevlerle doğrudan ilgisi yoktur. Form , gerçek matrislerin vektör uzayında tanımlanan doğrusal bir formdur . Birisi noktasında fonksiyonunun türevinin bazı matris eşit olduğunu iddia ettiğinde, 'nın doğrusal olduğu anlamına gelir tarafından verilen form . (1)Mat(m,n)m×nf:Mat(m,n)RAωDf(A)X:→Tr(Xω)
whuber

2
@Amoeba Bu kesinlikle doğru - bu cevabın ilk satırındaki iddiaları fazlasıyla haklı çıkarıyor. Bu yüzden " bu anlamda" yazdım ve daha sonra özette "eşittir" yerine "belirlenen" ifadesini kullandım. Açıklamanın zor olduğunu inkar etmeyeceğim; Nasıl açıklayacağımı düşüneceğim ve tüm görüş ve önerilerinizi takdir ediyorum.
whuber

1
@ user10324 Bu sitede yayınladığım şeylerin çoğu kendi formülasyonum. Kaynaklara nadiren başvuruyorum (ve bunu yaptığımda belgeliyorum). Bu yayınlar birçok kitap ve makaleyi okumanın damıtılmasıdır. En iyi kitaplardan bazıları tamamen matematiksel olarak titiz olan, ancak altta yatan fikirleri güzelce açıklayan ve gösteren kitaplar olmuştur. Akla gelen ilk birkaç - sofistike olarak - Freedman, Pisani ve Purves, Statistics (herhangi bir baskı); Jack Kiefer, İstatistiksel Çıkarımlara Giriş ; ve Steven Shreve, Stokastik Finans Hesabı II .
whuber

1
@whuber Sonunda izin doğrusal formunun ne olduğunu kavramıştım. Açıklamanızı daha dikkatli okuyabildiğimde, aynı soruyu ayrı gönderilerde tekrar sorduğunuz için özür dilerim. Bir sorum daha var. Herhangi bir matris fonksiyonunun türevlerini bulmak için denkleminiz uygulanabilirse, , aynı boyuta sahip midir? Eğer , o zaman ? h x x R m × n h R m × nf(x+h)f(x)=Lh+o(|h|)hxxRm×nhRm×n
MoneyBall
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.