Vektörler dikey ise, verilerin her bir vektör üzerindeki skaler izdüşümünün varyansını alabilirsiniz. Diyelim ki veri matrisimiz ( nokta x boyutlar) ve bir grup ortonormal sütun vektörü . Verilerin ortalandığını varsayın. Her bir vektör yönü boyunca veri varyans verilir .Xnd{v1,...,vk}viVar(Xvi)
Orijinal boyutlar ( ) kadar çok vektör varsa , projeksiyonların varyanslarının toplamı, orijinal boyutlar boyunca varyansların toplamına eşit olacaktır. Ancak, orijinal boyutlardan ( ) daha az vektör varsa , varyansların toplamı genellikle PCA'dan daha az olacaktır. PCA'yı düşünmenin bir yolu, bu miktarı en üst düzeye çıkarmasıdır (vektörlerin dik olduğu kısıtlamasına bağlı olarak).k=dk<d
Ayrıca , belirli bir PCA boyutunun verileri ne kadar iyi temsil ettiğini ölçmek için kullanılan (açıklanan varyans oranı açıklanmıştır) hesaplamak da isteyebilirsiniz . , verilerin her bir orijinal boyutu boyunca varyansların toplamını temsil edelim . Sonra:R2S
R2=1S∑i=1kVar(Xvi)
Bu sadece projeksiyonların toplanan varyanslarının ve orijinal boyutlar boyunca toplanan varyansların oranıdır.
hakkında düşünmenin bir başka yolu , verileri projeksiyonlardan yeniden oluşturmaya çalışırsak uyumun iyiliğini ölçmesidir. Daha sonra diğer modeller için kullanılan tanıdık formu alır (örn. Regresyon). Ki inci veri noktası satır vektörüdür . Temel vektörlerin her birini matrisi sütunları boyunca . İzdüşümü tüm vektörler üzerine inci veri noktası ile verilir . Orijinal boyutlardan daha az vektör olduğunda ( ı x ( i ) V i V p ( i ) = x ( i ) V k < d x ( i ) = p ( i ) V TR2ix(i)ViVp(i)=x(i)Vk<d) bunu, verileri doğrusal olarak azaltılmış boyutluluğa sahip bir alana eşleme olarak düşünebiliriz. Yaklaşık orijinal veri alanı içine eşleme geri düşük boyutlu temsil veri noktasını yeniden yapılandırabilir: . Ortalama kare yeniden yapılandırma hatası, her orijinal veri noktası ile yeniden yapılandırılması arasındaki ortalama kare Öklid mesafesidir:x^(i)=p(i)VT
E=1n∥x(i)−x^(i)∥2
Uyum iyiliği , diğer modellerle aynı şekilde tanımlanır (yani bir eksi açıklanamayan varyansın bir kısmı). Modelin ortalama kare hatası ( ) ve modellenen miktarın toplam varyansı ( ) göz önüne alındığında , . Verilerimiz yeniden bağlamında, ortalama kare hatası (rekonstrüksiyon hatası). Toplam varyans (verinin her boyutu boyunca varyansların toplamı). Yani:R2MSEVartotalR2=1−MSE/VartotalES
R2=1−ES
S ayrıca her veri noktasından tüm veri noktalarının ortalamasına ortalama kare Öklid mesafesine eşittir, bu nedenle yeniden yapılandırma hatasını her zaman döndüren 'en kötü durum modelinin' ile karşılaştırmak olarak düşünebiliriz. rekonstrüksiyon demek.R2
için iki ifade eşdeğerdir. Yukarıdaki gibi, orijinal boyutlar ( ) kadar çok vektör varsa, olacaktır. Ancak, , genellikle PCA için olandan daha az olacaktır. PCA hakkında düşünmenin başka bir yolu, kare imar hatasını en aza indirmesidir.R2k=dR2k<dR2