SVD
Xr×cX=Ur×rSr×cV′c×cm [m≤min(r,c)]X(m)mXX(m)=Ur×mSm×mV′c×mU=Ur×m V = V c × m S = S m × m, , .V=Vc×mS=Sm×m
Tekil değerler ve kareleri, özdeğerleri, verinin atalet olarak da adlandırılan ölçeğini temsil eder . Sol özvektörler , veri satırlarının ana eksenleri üzerindeki koordinatlarıdır ; sağ özvektörler ise veri sütunlarını aynı gizli eksenlere koordine eder. Ölçeğin tamamı (atalet) saklanır ve böylece ve koordinatları birim normalleştirilir (sütun SS = 1).SU m V S U VUmVSUV
SVD ile Temel Bileşen Analizi
PCA, dikkate almak için mutabık satırları arasında (gel ya da git), ama dikkate almak rastgele gözlemler olarak sütunları arasında boyutlar veya değişkenlerin sabit numara olarak. Nedenle SVD-ayrıştırma ile, özellikle öz değerlerine, sonuçları satır (ve sadece satır) sayısı etkisini ortadan kaldırmak için uygun ve kullanışlı yerine . Bunun, öz ayrışmasına tekabül ettiğini , örneklem büyüklüğü dikkat edin . (Genellikle, çoğunlukla kovaryanslarla - onları tarafsız kılmak için - bölmeyi tercih edeceğiz , ama bu bir nüanstır.)XX Z = X / √XZ=X/r√XX′X/rrn
r−1
yalnızca etkilenen bir sabitle çarpımı ; ve , satır ve sütunların birim normalleştirilmiş koordinatları olarak kalır.XSUV
Burada her kaynaktan tanımlanarak aşağıdaki , ve SVD tarafından verilen değil, ; , normalleştirilmiş bir sürümü olup , normalleştirme, analiz türleri arasında değişir.SUVZXZX
Çarparak Getirdiğimiz ortalama sütunlarında kare satırları bize rastgele durumlardır düşünüldüğünde 1'e, bu mantıklıdır. Böylelikle PCA standardı veya standartlaştırılmış temel bileşen gözlem puanları elde ettik , . Değişkenler sabit öğeler olduğundan , ile aynı şeyi yapmıyoruz .Ur√=U∗UU∗VUU∗V
Daha sonra PCA olarak adlandırılan standart dışı satır koordinatları elde etmek için, her atalet ile satır kazandırabileceği ham ana bileşen puanları gözlemler: . Bu formüle "doğrudan yol" diyoruz. Aynı sonuç ; "dolaylı yol" olarak etiketleyeceğiz.U∗SXV
Benzer şekilde, PCA'da bileşen değişken yükleri olarak da adlandırılan standartlaştırılmamış sütun koordinatlarını elde etmek için tüm ataletli sütunlar verebiliriz : [ kare ise transpozisyonu görmezden gelebilir ], - "doğrudan yol". Aynı sonuç , - "dolaylı yol" tarafından da döndürülür . (Yukarıdaki standartlaştırılmış ana bileşen puanları, olarak yüklerden de hesaplanabilir , burada yüklerdir.)VS′SZ′UX ( bir S - 1 / 2 ) birX(AS−1/2)A
Biplot
İkiliyi, sadece "bir çift saçılım grafiği" olarak değil, kendi başına bir boyutluluk azaltma analizi olarak düşünün. Bu analiz PCA'ya çok benzer. PCA'dan farklı olarak, hem sıralar hem de sütunlar simetrik olarak rasgele gözlemler olarak ele alınır; bu, b değişken boyutlulukta rastgele iki yönlü bir tablo olarak görüldüğü anlamına gelir . Daha sonra, doğal olarak, bunu normalize hem ve : SVD önce .XR, C , Z = X / √ rcZ=X/rc−−√
Svd'den sonra, PCA'da yaptığımız gibi standart satır koordinatlarını hesaplayın : . Standart sütun koordinatlarını elde etmek için aynı şeyi (PCA'nın aksine) sütun vektörleriyle yapın : . Hem satırlarda hem de sütunlarda standart koordinatlar ortalama 1 kareye sahiptir.U∗=Ur√V∗=Vc√
PCA'da yaptığımız gibi özdeğerlerin ataletli satır ve / veya sütun koordinatlarını verebiliriz. Unstandardized satır koordinatları: (doğrudan yön). Standartlaştırılmamış sütun koordinatları: (doğrudan yol). Dolaylı yoldan ne haber? Standardize edilmemiş satır koordinatları için dolaylı formülün , ve standartlaştırılmamış sütun koordinatları için .U∗SV∗S′XV∗/cX′U∗/r
Biplot'un özel bir hali olarak PCA . Yukarıdaki tanımlamalardan muhtemelen PCA ve Biplot kullanımıyla farklılaşan öğrendim nasıl normalleştirmek içine ayrıştırılar. Biplot, hem satır sayısı hem de sütun sayısı ile normalleşir; PCA yalnızca satır sayısına göre normalleştirir. Sonuç olarak, svd sonrası hesaplamalarda ikisi arasında küçük bir fark vardır. Eğer biplot yaparken , formüllerine koyarsanız tam PCA sonuçları alırsınız. Bu nedenle, ikiplot genel bir yöntem olarak ve PCA özel bir ikiplot durumu olarak görülebilir.XZc=1
[ Sütun merkezleme . Bazı kullanıcılar şunu söyleyebilir: Dur, ancak PCA ayrıca ve ilk önce varyansı açıklamak için veri sütunlarının (değişkenlerin) merkezlenmesini gerektirmiyor mu? İkiplot merkezleme yapmıyor olabilir mi? Cevabım: sadece dar PCA anlamında merkezleme yapar ve varyansı açıklar; Genel anlamda lineer PCA, seçilen kökene göre bir miktar kare sapma toplamı açıklayan PCA; veri ortalaması, yerel 0 veya ne istersen onu seçebilirsin. Bu nedenle, "merkezleme" işlemi PCA'yı iki noktadan ayırabilecek bir şey değildir.]
Pasif satırlar ve sütunlar
İkili veya PCA'da, bazı satırları ve / veya sütunları pasif veya tamamlayıcı olarak ayarlayabilirsiniz. Pasif satır veya sütun SVD'yi etkilemez ve bu nedenle diğer satırların / sütunların ataletini veya koordinatlarını etkilemez, ancak koordinatlarını etkin (pasif olmayan) satır / sütunlar tarafından üretilen ana eksenler alanında alır.
Bazı noktaları (satırlar / sütunlar) pasif hale getirmek için, (1) ve yalnızca etkin satır ve sütunların sayısı olarak tanımlayın . (2) svd'den önce sıfır pasif satır ve sütunlara ayarlayın . (3) Özvektör değerleri sıfır olacağından, pasif satır / sütunların koordinatlarını hesaplamak için "dolaylı" yöntemleri kullanın.rcZ
PCA'da, eski gözlemlere ( puan katsayısı matrisini kullanarak) yüklenen yüklerin yardımı ile yeni gelen vakalar için bileşen puanları hesapladığınızda , aslında bu yeni vakaları PCA'da almak ve pasif tutmakla aynı şeyi yapıyorsunuz. Benzer şekilde, bazı dış değişkenlerin bir PCA tarafından üretilen bileşen puanlarıyla korelasyonlarını / kovaryanslarını hesaplamak, bu değişkenleri o PCA'da almak ve pasif tutmakla eşdeğerdir.
Ataletin keyfi yayılması
Standart koordinatların sütun ortalama kareleri (MS) 1'dir. Standartlaştırılmamış koordinatların sütun ortalama kareleri (MS), ilgili ana eksenlerin ataletine eşittir: standartlaştırılmamış koordinatları üretmek için özdeğerlerin tüm ataletleri özvektörlere bağışlanmıştır.
Gelen Biplot : satır standart koordinatın her ana eksenin MS = 1 bulunmaktadır. Satır standartlaştırılmamış koordinatlar, ayrıca satır asıl koordinatlar da denir , MS = değerine karşılık gelir . Aynısı sütun standardı ve standartlaştırılmamış (ana) koordinatlar için de geçerlidir.U∗U∗S=XV∗/cZ
Genel olarak, bir inertli koordinatların tamamen veya hiç olmadığı şekilde verilmesi zorunlu değildir. Herhangi bir nedenle gerekirse isteğe bağlı yaymaya izin verilir. Let olmak atalet oranı satırlarına gitmektir. Daha sonra, satır koordinatlarının genel formülü şöyledir: (doğrudan yol) = (dolaylı yol). Eğer ise standart satır koordinatlarına, ise ana satır koordinatlarına sahip .p1U∗Sp1XV∗Sp1−1/cp1=0p1=1
Aynı şekilde olmak atalet oranı sütunlara gitmektir. Daha sonra, sütun koordinatlarının genel formülü: (doğrudan yol) = (dolaylı yol). Eğer ise standart sütun koordinatlarına, ise temel sütun koordinatlarına sahip .p2V∗Sp2X′U∗Sp2−1/rp2=0p2=1
Genel dolaylı formüller, varsa pasif noktalar için de koordinatları (standart, prensip veya arada) hesaplamaya izin vermeleri bakımından evrenseldir.
Eğer ise ataletin satır ve sütun noktaları arasında dağıldığını söylerler. , yani satır ana sütun standardı, biplots bazen "formu biplots" veya "sıralı-metrik koruma" biplots olarak adlandırılır. , örneğin, satır sütunluk asıl standart, biplots genellikle PCA literatür "kovaryans biplots" veya "kolon-metrik koruma" biplots içinde olarak adlandırılır; bunlar (değişken yükleri görüntüler edilir PCA içinde uygulandığında, bileşen skorları kovaryansları ile yan yana) artı standart.p1+p2=1p1=1,p2=0p1=0,p2=1
Gelen yazışma analizi , , genellikle kullanılan ve "simetrik" ya da atalet ile "kanonik" normalizasyon denir - satır arasındaki yakınlığı karşılaştırma bu (Öklit geometrik katılık bazı expence olsa) izin verir ve biz gibi, sütunda Çok boyutlu açılım haritası üzerinde yapabilir.p1=p2=1/2
Yazışma Analizi (Öklid modeli)
İki yönlü (= basit) yazışma analizi (CA), iki yönlü bir beklenmedik durum tablosunu, yani bir satır ile bir sütun arasındaki bir tür yakınlık anlamını taşıyan girdilerin negatif olmadığı bir tabloyu analiz etmek için kullanılan bir çift grafiktir . Tablo sıklıkta ki kare model yazışma analizi kullanılır. Girişler, örneğin, puanlar veya diğer puanlar olduğunda, basitleştirici bir Euclidean model CA kullanılır.
Öklid modeli CA , sadece yukarıda açıklanan ikiplottur; sadece tablosu , ikiplot işlemlerine girmeden önce ek olarak önceden işlenir. Özellikle, değerler sadece ve değil aynı zamanda toplam toplamı ile normalleştirilir .XrcN
Ön işleme, merkezleme işleminden sonra ortalama kütle tarafından normalleştirmeden oluşur. Merkezleme, çoğu zaman çeşitli olabilir: (1) sütunların merkezlenmesi; (2) sıraların merkezlenmesi; (3) frekans artıklarının hesaplanması ile aynı işlem olan iki yönlü merkezleme; (4) sütun toplamlarını eşitledikten sonra sütunların merkezlenmesi; (5) sıra toplamlarını eşitledikten sonra sıraların ortalanması. Ortalama kütle tarafından normalleştirme, ilk tablonun ortalama hücre değerine bölünmesidir. Ön işleme adımında, eğer varsa pasif satırlar / sütunlar pasif olarak standartlaştırılır: bunlar aktif satır / sütunlardan hesaplanan değerlerle ortalanır / normalleştirilir.
Daha sonra her zamanki biplot önceden işlenmiş , dan başlayarak yapılır .XZ=X/rc−−√
Ağırlıklı Biplot
Bir satırın veya bir sütunun etkinliğinin veya öneminin, şimdiye kadar tartışılan klasik çiftlikte olduğu gibi 0 ile 1 arasında herhangi bir sayı olabileceğini ve yalnızca 0 (pasif) veya 1 (etkin) olmadığını hayal edin. Girdi verilerini bu satır ve sütun ağırlıklarına göre ağırlıklandırabiliriz ve ağırlıklandırılmış iki nokta yapabiliriz. Ağırlıklandırılmış ikiplot ile, o kadar etkili olan ağırlık ne kadar etkili olursa o sıra veya tüm sonuçlara ilişkin o sütundur - tüm noktaların atalet ve tüm noktaların ana eksenler üzerindeki koordinatları.
Kullanıcı satır ağırlıkları ve sütun ağırlıkları sağlar. Bunlar ve bunlar ilk önce 1'e ayrı ayrı normalize edilir. Ardından normalleştirme adımı , ve i ve sütun j için ağırlıklardır . Tam olarak sıfır ağırlık, satır veya pasif olacak sütunu gösterir.Zij=Xijwiwj−−−−√wiwj
Bu noktada, klasik iki grafiğin basitçe tüm aktif satırlar için eşit ağırlıklar ve tüm aktif sütunlar için eşit ağırlıklar olan bu ağırlıklı ikiplot olduğunu keşfedebiliriz ; ve aktif satırların ve aktif sütunların sayıları.1/r1/crc
svd'sini gerçekleştirin . Tüm işlemler, klasik Biplot aynıdır, tek farkla ki olmak yerine olan ve yerine olan . Standart satır koordinatları: ve standart sütun koordinatları: . (Sıfır ağırlığı olmayan satırlar / sütunlar içindir. Sıfır ağırlığı olanlar için değerleri 0 olarak bırakın ve bunlar için standart veya herhangi bir koordinat elde etmek için aşağıdaki dolaylı formülleri kullanın.)Zwi1/rwj1/cU∗i=Ui/wi−−√V∗j=Vj/wj−−√
İstediğiniz oranda koordinatlara atalet verin ( ve ile koordinatlar tamamen standartlaşmayacak veya prensip olarak; ve ise standart kalacaklar). Satırlar: (doğrudan yol) = (dolaylı yol). Sütunlar: (doğrudan yol) = (dolaylı yol). Buradaki köşeli parantez içindeki matrisler sırasıyla sütunun köşegen matrisleri ve sıra ağırlıklarıdır. Pasif noktalar için (yani, sıfır ağırlıkla), yalnızca dolaylı hesaplama yöntemi uygundur. Aktif (pozitif ağırlıklar) puanlar için iki yönde de gidebilirsiniz.p1=1p2=1p1=0p2=0U∗Sp1X[Wj]V∗Sp1−1V∗Sp2([Wi]X)′U∗Sp2−1
Belli bir Biplot vakası olarak PCA tekrar ziyaret edildi . Daha önce ağırlıklandırılmamış biplot dikkate alındığında, PCA ve biplot'ın eşdeğer olduğunu belirtmiştim, tek fark, biplotin verilerin sütunlarını (değişkenlerini) rasgele durumlar olarak gözlemlere (satırlar) simetrik olarak görmesidir. Şimdi ikiplot'i daha genel ağırlıklı ikiplot'a genişlettikten sonra, bir kez daha iddia edebiliriz, tek farkın (ağırlıklı) ikiplotun girdi verilerinin sütun ağırlıklarının toplamını 1'e, ve (ağırlıklı) PCA'yı - ( etkin) sütunlar. Yani burada tanıtılan ağırlıklı PCA . Sonuçları, orantılı olarak ağırlıklı ikiplot ile aynıdır. Özellikle, eğerc aktif sütunların sayısıdır, bu durumda iki analizin klasik versiyonlarının yanı sıra ağırlıklı için de aşağıdaki ilişkiler geçerlidir:
- PCA'nın özdeğerleri = biplot özdeğerleri ;⋅c
- loadings = sütunların "temel normalleştirmesi" altındaki sütun koordinatları;
- standartlaştırılmış bileşen puanları = satırların "standart normalleştirilmesi" altındaki satır koordinatları;
- PCA'nın özvektörleri = sütununun "standart normalleştirilmesi" altındaki sütun koordinatları ;/c√
- Ham bileşen puanları = satırlarının "temel normalleştirilmesi" altındaki satır koordinatları .⋅c√
Yazışma Analizi (Ki-kare modeli)
Bu teknik olarak, ağırlıkların kullanıcı tarafından tedarik edilmek yerine bir tablonun kendisinden hesaplandığı ağırlıklı bir ikili grafiktir. Çoğunlukla frekans çapraz tablolarını analiz etmek için kullanılır. Bu ikiplot, arsa üzerindeki öklid mesafeleri, tablodaki ki-kare mesafeleri ile yaklaşık olarak hesaplanacaktır. Ki-kare mesafesi matematiksel olarak marjinal toplamlar tarafından tersine ağırlıklandırılan öklid mesafesidir. Ki-kare model CA geometrisinin detaylarında daha fazla ilerlemeyeceğim.
Frekans tablosu ön işlenmesi şu şekildedir: her bir frekansı beklenen frekansa bölün, ardından 1'i çıkarın. İlk önce kalan frekansı elde etmek ve daha sonra beklenen frekansa bölmekle aynıdır. Satır ağırlıkları ve sütun ağırlıkları ; burada , i satırının marjinal toplamıdır (yalnızca etkin sütunlar), , j sütununun marjinal toplamıdır (yalnızca etkin satırlar), , toplam tablo toplamı (üç sayı ilk tablodan gelir).Xwi=Ri/Nwj=Cj/NRiCjN
Ardından ağırlıklı ikili tabloyu yapın: (1) içine normalleştirin . (2) Ağırlıklar asla sıfır değildir ( sıfır ve izin verilmez); ancak satırları / sütunları sıfırlayarak pasif olmaya zorlayabilirsiniz , böylece ağırlıkları svd'de etkisiz olur. (3) Yap. (4) Standart ve atalet esaslı koordinatları, ağırlıklı çift katlı olarak hesaplayın.XZRiCjZ
Ki-kare model CA'da olduğu gibi, Euclidean model CA'da da iki yönlü bir merkezleme kullanarak son bir özdeğer her zaman 0'dır, bu nedenle mümkün olan en büyük asıl boyut sayısı .min(r−1,c−1)
Ayrıca bu cevapta ki-kare model CA'nın güzel bir genel bakışına bakınız .
Çizimleri
İşte bazı veri tablosu.
row A B C D E F
1 6 8 6 2 9 9
2 0 3 8 5 1 3
3 2 3 9 2 4 7
4 2 4 2 2 7 7
5 6 9 9 3 9 6
6 6 4 7 5 5 8
7 7 9 6 6 4 8
8 4 4 8 5 3 7
9 4 6 7 3 3 7
10 1 5 4 5 3 6
11 1 5 6 4 8 3
12 0 6 7 5 3 1
13 6 9 6 3 5 4
14 1 6 4 7 8 4
15 1 1 5 2 4 3
16 8 9 7 5 5 9
17 2 7 1 3 4 4
28 5 3 3 9 6 4
19 6 7 6 2 9 6
20 10 7 4 4 8 7
Bu değerlerin analizine dayanan birkaç çift saçılma noktası (ilk 2 temel boyutta) izler. Sütun noktaları, görsel vurgu için orijinale çivilerle bağlanmıştır. Bu analizlerde pasif satır veya sütun bulunmamaktaydı.
İlk ikiplot, "olduğu gibi" analiz edilen veri tablosunun SVD sonuçlarıdır; koordinatlar satır ve sütun özvektörleridir.
Aşağıda gelen olası biplots biridir PCA . PCA, sütunların ortalanması olmaksızın "olduğu gibi" verileriyle yapıldı; ancak, PCA'da kabul edildiği gibi, başlangıçta sıra sayısıyla (vaka sayısı) normalleştirme yapıldı. Bu özel çift dilimli temel satır koordinatlarını (örneğin, ham bileşen puanları) ve temel sütun koordinatlarını (yani değişken yükler) görüntüler.
Sonraki ikipens sensu stricto : Tablo başlangıçta hem satır sayısı hem de sütun sayısı ile normalleştirildi. Ana normalizasyon (atalet yayılması), yukarıdaki PCA'da olduğu gibi hem sıra hem de sütun koordinatları için kullanılmıştır. PCA biplot ile benzerliği not edin: Tek fark, ilk normalleşmedeki farktan kaynaklanır.
Ki-kare modeli yazışma analizi iki parçalı. Veri tablosu özel olarak işlendi, iki yönlü merkezleme ve marjinal toplamları kullanarak normalizasyonu içeriyordu. Bu ağırlıklı bir biplot. Atalet, sıranın üzerine yayıldı ve sütun koordinatları simetrik olarak - ikisi de "asıl" ve "standart" koordinatlar arasında.
Tüm bu saçılma noktalarında görüntülenen koordinatlar:
point dim1_1 dim2_1 dim1_2 dim2_2 dim1_3 dim2_3 dim1_4 dim2_4
1 .290 .247 16.871 3.048 6.887 1.244 -.479 -.101
2 .141 -.509 8.222 -6.284 3.356 -2.565 1.460 -.413
3 .198 -.282 11.504 -3.486 4.696 -1.423 .414 -.820
4 .175 .178 10.156 2.202 4.146 .899 -.421 .339
5 .303 .045 17.610 .550 7.189 .224 -.171 -.090
6 .245 -.054 14.226 -.665 5.808 -.272 -.061 -.319
7 .280 .051 16.306 .631 6.657 .258 -.180 -.112
8 .218 -.248 12.688 -3.065 5.180 -1.251 .322 -.480
9 .216 -.105 12.557 -1.300 5.126 -.531 .036 -.533
10 .171 -.157 9.921 -1.934 4.050 -.789 .433 .187
11 .194 -.137 11.282 -1.689 4.606 -.690 .384 .535
12 .157 -.384 9.117 -4.746 3.722 -1.938 1.121 .304
13 .235 .099 13.676 1.219 5.583 .498 -.295 -.072
14 .210 -.105 12.228 -1.295 4.992 -.529 .399 .962
15 .115 -.163 6.677 -2.013 2.726 -.822 .517 -.227
16 .304 .103 17.656 1.269 7.208 .518 -.289 -.257
17 .151 .147 8.771 1.814 3.581 .741 -.316 .670
18 .198 -.026 11.509 -.324 4.699 -.132 .137 .776
19 .259 .213 15.058 2.631 6.147 1.074 -.459 .005
20 .278 .414 16.159 5.112 6.597 2.087 -.753 .040
A .337 .534 4.387 1.475 4.387 1.475 -.865 -.289
B .461 .156 5.998 .430 5.998 .430 -.127 .186
C .441 -.666 5.741 -1.840 5.741 -1.840 .635 -.563
D .306 -.394 3.976 -1.087 3.976 -1.087 .656 .571
E .427 .289 5.556 .797 5.556 .797 -.230 .518
F .451 .087 5.860 .240 5.860 .240 -.176 -.325