Öncelikle, ilişkisizleştirmenin ve beyazlatmanın iki ayrı prosedür olduğunu düşünüyorum.
Verileri birbiriyle ilişkilendirmek için, onu dönüştürmemiz gerekir, böylece dönüştürülen veriler bir köşegen kovaryans matrisine sahip olur. Bu dönüşüm özdeğer problemini çözerek bulunabilir. Çözücü matrisinin özvektörlerini ve özdeğerlerini çözerek buluruz.Σ=XX′
ΣΦ=ΦΛ
burada diagonal elemanlar olarak öz sahip olan bir köşegenel matristir.Λ
Böylece matrisi, kovaryans matrisini köşegenleştirir . sütunları , kovaryans matrisinin özvektörleridir.ΦXΦ
Köşegenleştirilmiş kovaryansı şu şekilde de yazabiliriz:
Φ′ΣΦ=Λ(1)
Böylece, tek bir vektörü ilişkilendirmek için yaparız:xi
x∗i=Φ′xi(2)
içindeki köşegen öğeler (özdeğerler) aynı veya farklı olabilir. Hepsini aynı yaparsak, buna veriyi beyazlatma denir. Her bir özdeğer, ilgili özvektörünün uzunluğunu belirlediği için, kovaryans, veriler beyazlatılmadığında bir elips ve veri beyazlatıldığında bir küreye (tüm uzunlukları aynı boyda veya tek biçimli) karşılık gelir. Beyazlatma aşağıdaki gibi yapılır:Λ
Λ−1/2ΛΛ−1/2=I
Aynı şekilde, , yazıyoruz:(1)
Λ−1/2Φ′ΣΦΛ−1/2=I
Böylece, bu beyazlatma dönüşümünü uygulamasına uygulamak için, bu ölçek faktörü ile çarparak beyazlatılmış veri noktasını elde ederek :x∗ix†i
x†i=Λ−1/2x∗i=Λ−1/2Φ′xi(3)
Şimdi kovaryansı sadece çapraz değil, aynı zamanda tek tip (beyaz), çünkü , kovaryansı . x † i e ( x † i x † i ' )= Ix†ix†iE(x†ix†i′)=I
Bundan sonra, bunun faydalı olamayacağı iki durum görüyorum. Birincisi oldukça önemsizdir, veri örneklerinin ölçeklendirilmesinin, bakmakta olduğunuz çıkarım probleminde bir şekilde önemli olduğu anlaşılabilir. Elbette, özdeğerleri, bunun üstesinden gelmek için ek bir dizi özellik olarak yapabilirsiniz. İkincisi, hesaplamalı bir sorundur: ilk önce binlerce özellik varsa) belleğe sığmayacak kadar büyük olabilen (binlerce özelliğe sahipseniz) kovaryans matrisini ) hesaplamanız gerekir; ikinci olarak, özdeğer ayrışımı pratikte O (n ^ 3) 'dur ve bu da çok sayıda özelliğe sahip olan oldukça korkunçtur.Σ
Ve son olarak, insanların dikkat etmesi gereken ortak bir “yakalanma” var. Egzersiz verilerinde ölçeklendirme faktörlerini hesaplarken dikkatli olmalısınız ve sonra aynı ölçeklendirme faktörlerini test verilerine uygulamak için denklemleri (2) ve (3) kullanmalısınız, aksi halde fazla uyarma riski altındasınızdır ( eğitim sürecinde belirlenen testten bilgi).
Kaynak: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf