O'Reilly'nin "Hackerlar İçin Makine Öğrenmesi" her temel bileşenin varyansın bir yüzdesini temsil ettiğini söylüyor. Aşağıdaki sayfanın ilgili kısmını alıntıladım (bölüm 8, s.207). Başka bir uzmanla görüştüklerinde, bunun yüzde olduğunu kabul ettiler.
Bununla birlikte, 24 bileşen% 133.2095'tir. Nasıl olabilir?
Kendimizi PCA kullanabileceğimize ikna ettikten sonra, bunu R'de nasıl yapabiliriz? Yine, bu R'nin parladığı bir yerdir: PCA'nın tamamı tek bir kod satırında yapılabilir. PCA'yı çalıştırmak için princomp fonksiyonunu kullanıyoruz:
pca <- princomp(date.stock.matrix[,2:ncol(date.stock.matrix)])
R'ye sadece pca yazarsak, ana bileşenlerin hızlı bir özetini göreceğiz:
Call: princomp(x = date.stock.matrix[, 2:ncol(date.stock.matrix)]) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 29.1001249 20.4403404 12.6726924 11.4636450 8.4963820 8.1969345 5.5438308 Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 Comp.13 Comp.14 5.1300931 4.7786752 4.2575099 3.3050931 2.6197715 2.4986181 2.1746125 Comp.15 Comp.16 Comp.17 Comp.18 Comp.19 Comp.20 Comp.21 1.9469475 1.8706240 1.6984043 1.6344116 1.2327471 1.1280913 0.9877634 Comp.22 Comp.23 Comp.24 0.8583681 0.7390626 0.4347983 24 variables and 2366 observations.
Bu özette, standart sapmalar bize veri setindeki varyansın ne kadarının farklı ana bileşenler tarafından muhasebeleştirildiğini anlatmaktadır. Comp.1 adı verilen ilk bileşen varyansın% 29'unu, bir sonraki bileşen% 20'sini oluşturur. Sonunda, son bileşen olan Comp.24, varyansın% 1'inden daha azını oluşturur. Bu, yalnızca ilk temel bileşene bakarak verilerimiz hakkında çok şey öğrenebileceğimizi gösterir.
[Kod ve veriler github'da bulunabilir .]
R
yazılımın kendisine atıfta bulunmak için "hata" aldım . Bu hatayı bulmak iyi bir şeydi (umarım PCA'da neler olup bittiğini bulmak için faydalı bulursunuz)!
Standard deviations
biraz kapalı. Standart sapmalar aslında standart sapmalar olduğundan, her bir bileşenin varyansın ne kadarını temsil ettiğini görmek için bunları kare haline getirmeliyiz. İlk bileşen , toplam varyansın yüzde oranını temsil edecektir.