A
Sadece merak ediyorum - bunu "geriye" yapmanın bir yolu var mı? Bu değişkenlerin doğrusal bir kombinasyonunu seçtiğimi varsayalım - örneğin A + 2 B + 5 C
A
Sadece merak ediyorum - bunu "geriye" yapmanın bir yolu var mı? Bu değişkenlerin doğrusal bir kombinasyonunu seçtiğimi varsayalım - örneğin A + 2 B + 5 C
Yanıtlar:
Tüm değişkenlerin ortalandığı öncülüyle başlarsak (PCA'da standart uygulama), verilerdeki toplam varyans sadece karelerin toplamıdır:
T = ∑ i ( A 2 i + B 2 i + C 2 i + D 2 i + E 2 i + F 2 i )
Bu, değişkenlerin kovaryans matrisinin izine eşittir, bu kovaryans matrisinin özdeğerlerinin toplamına eşittir. Bu, PCA'nın "verileri açıklama" açısından bahsettiği miktarla aynıdır - yani PC'lerinizin kovaryans matrisinin köşegen öğelerinin en büyük oranını açıklamasını istersiniz. Şimdi bunu bir dizi öngörülen değer için nesnel bir işlev yaparsak:
S = Σ i ( [ A ı - bir i ] 2 + ⋯ + [ F i - K i ] 2 )
Daha sonra birinci ana bileşeni en aza indirir S
Zi=1√30Ai+2√30Bi+5√30Ci
Then we multiply the scores by the weight vector to get our rank 1 prediction.
(ˆAiˆBiˆCiˆDiˆEiˆFi)=Zi×(1√302√305√30000)
Then we plug these estimates into S
||O||22−||O−E||22||O||22
Where ||.||2
Let's say I choose some linear combination of these variables -- e.g. A+2B+5C
A+2B+5C , could I work out how much variance in the data this describes?
This question can be understood in two different ways, leading to two different answers.
A linear combination corresponds to a vector, which in your example is [1,2,5,0,0,0]
Let X
This might not be immediately obvious, because e.g. @probabilityislogic suggests to consider the reconstruction Xww⊤
Okay. Now consider a following example: X
The total variance is T=2
On the other hand, the two variables have 0.99
It is a matter of straightforward algebra to use regression solution for v
Note that if (and only if) w
PS. See my answer here for an application of the derived formula to the special case of w
Finding v
Next, the R2
Plugging now the equation for v
The denominator is equal to ‖X‖2=tr(Σ)
Let the total variance, T
Now let the predictor of xi, f(xi), be the projection of vector xi onto a unit vector c.
fc(xi)=(c⋅xi)c
Then the SSE for a given c is SSEc=∑i(xi−fc(xi))⋅(xi−fc(xi))
I think that if you choose c to minimize SSEc, then c is the first principal component.
If instead you choose c to be the normalized version of the vector (1,2,5,...), then T−SSEc is the variance in the data described by using c as a predictor.