Andrew Ng'in makine öğrenimi kursunda şu formülü kullanıyor:
ve aşağıda gösterilen hızlı bir kanıt yapar:
Kanıt herhangi bir yorum olmadan çok yoğun görünüyor ve bunu anlamakta zorlanıyorum. İkinci eşitlikten üçüncü eşitliğe tam olarak ne oldu?
Andrew Ng'in makine öğrenimi kursunda şu formülü kullanıyor:
ve aşağıda gösterilen hızlı bir kanıt yapar:
Kanıt herhangi bir yorum olmadan çok yoğun görünüyor ve bunu anlamakta zorlanıyorum. İkinci eşitlikten üçüncü eşitliğe tam olarak ne oldu?
Yanıtlar:
Adımların birçoğunu kafa karıştırıcı hale getiren gösterimin ince ama ağır bir kötüye kullanımı vardır. Matris çarpımı, transpozisyon, izler ve türevlerin tanımlarına geri dönerek bu sorunu ele alalım. Açıklamaları atlamak isteyenler için, titiz bir gösterinin ne kadar kısa ve basit olabileceğini görmek için "Hepsini Bir Araya Koymak" bölümüne gidin.
ifadesinin bir matrisi olduğunda anlamlı olması için , bir (kare) matrisi olmalı ve bir matrisi olmalıdır, bu durumda ürün matrisi. İzi almak için (bu, çapraz öğelerin toplamıdır, ), sonra , bir kare matris yapar.A m × n B n × n C m × p m × p Tr ( X ) = ∑ i X i i p = m C
" " gösterimi , bir ifadenin göre türevini belirtir . Genellikle farklılaşma fonksiyonlarında gerçekleştirilen bir işlemdir . noktasındaki türev, doğrusal bir dönüşüm . Bu vektör uzayları için bazlar seçildiğinde, böyle bir dönüşüm bir matrisi olarak temsil edilebilir . Burada durum böyle değil! A f : R N → R M x ∈ R N D f ( x ) : R N → R M M × N
Bunun yerine , bir unsuru olarak kabul edilmektedir : katsayıları, uzunluğunda bir vektöre girilir (genellikle satır satır veya sütun sütun) . Fonksiyon nereden, gerçek değerlere sahip . Sonuç olarak, a olmalıdır bu üzerinde doğrusal bir çizgi gösteren bir sıra vektörü açıklanmıştır: matris . Ancak, sorudaki hesaplamalar doğrusal formları temsil etmenin farklı bir yolunu kullanır : katsayıları matrislerine geri alınır.R m n N = m n f ( A ) = Tr ( A B A ′ C ) M = 1 D f ( x ) 1 × m n R m n m × n
Let bir sabit matrisi. Daha sonra, iz ve matris çarpımının tanımı ile,m × n
Bu katsayılar en genel olası bir doğrusal kombinasyonu ifade : aynı şekilde şekil bir matrisidir ve aralıksız olarak katsayısı ve sütun katsayısı lineer kombinasyon halinde kullanılabilmektedir. Çünkü , rolleri ve eşdeğer salgı veren, açık olabilirω A i j A i j ω i j A i j = A i j ω i j ω A
veya işlevlerinden herhangi biriyle sabit bir matris tanımlayarak , doğrusal olabilir uzayında formları olarak matrisler matrisler. (Bunları - ! Fonksiyonlarının türevleriyle karıştırmayın .)
İstatistiklerde karşılaşılan birçok matris fonksiyonunun türevleri, tanımdan en kolay ve güvenilir bir şekilde hesaplanır: gerçekten karmaşık matris farklılaşma kurallarına başvurmanıza gerek yoktur. Bu tanım söylüyor noktasında türevli lineer transformasyon vardır, ancak ve ancak şekildedir
isteğe bağlı olarak küçük bir yer değiştirme . Küçük oh gösterimi , tarafından farkına yaklaşmada yapılan hatanın, yeterince küçük için boyutundan keyfi olarak daha küçük olduğu anlamına gelir . Özellikle, ile orantılı hataları her zaman göz ardı edebiliriz .
Tanımı söz konusu işleve uygulayalım. Terimi içindeki iki çarpımı ile çarpma, genişletme ve yoksayma ,
türevini tanımlamak için , bunu formuna almalıyız . Sağdaki ilk terim ile zaten bu formdadır . Sağdaki diğer terim için biçimindedir . Bunu yazalım:
Çağırma , yeniden olabilir
O ise bu biz türev düşünebilir anlamında at olmak bu matrisler oynamak çünkü eser formüllerde rolleri .
İşte burada tam bir çözüm.
Let bir olmak , matris bir matrisini ve bir matris. Let . Let bir olmak keyfi küçük katsayılı matrisi. Çünkü (kimliğe göre ) olduğu türevlenebilir ve türevi matrisi tarafından belirlenen doğrusal formdur
Bu, işin sadece yarısını aldığından ve matrislerin ve izlerin yalnızca en temel manipülasyonlarını (çarpma ve transpozisyon) içerdiğinden, sonucun daha basit ve tartışmalı olarak daha gösterişli bir gösterimi olarak düşünülmelidir. Orijinal sunumdaki tek tek adımları gerçekten anlamak istiyorsanız, bunları burada gösterilen hesaplamalarla karşılaştırmanın verimli olduğunu görebilirsiniz.