Korelasyonda veya kovaryansta PCA: Korelasyonda PCA hiç mantıklı geliyor mu? [kapalı]


32

Temel bileşen analizinde (PCA), bileşenleri bulmak için kovaryans matrisi veya korelasyon matrisi seçilebilir (ilgili özvektörlerinden). Bunlar farklı sonuçlar verir (PC yüklemeleri ve puanları), çünkü her iki matris arasındaki özvektörler eşit değildir. Benim anladığım şey, bunun bir ham veri vektörünün ve onun standart hale getirilmesinin ortogonal bir dönüşümle ilişkilendirilemeyeceği gerçeğinden kaynaklanmaktadır . Matematiksel olarak, benzer matrisler (yani dikgen dönüşümle ilişkili) aynı özdeğerlere sahiptir, ancak aynı özvektörleri gerektirmez.ZXZ

Bu aklımda bazı zorluklar doğuruyor:

  1. Aynı başlangıç ​​veri seti için iki farklı cevap alabiliyorsanız, her ikisi de aynı şeyi başarmaya çalışırken (= maksimum varyans yönlerini bulma) PCA gerçekten mantıklı geliyor mu?

  2. Korelasyon matrisi yaklaşımı kullanılırken, PC'leri hesaplamadan önce her değişken kendi bireysel standart sapması ile standartlaştırılır (ölçeklenir). Öyleyse, eğer veriler önceden ölçeklendirilmiş / önceden sıkıştırılmışsa, maksimum varyansın yönünü bulmak nasıl mantıklı geliyor? Korelasyon temelli PCA'nın çok uygun olduğunu biliyorum (standart değişkenler boyutsuzdur, bu yüzden onların doğrusal kombinasyonları eklenebilir; diğer avantajlar da pragmatizme dayanır), ama doğru mu?

Bana göre, kovaryansa dayalı PCA'nın gerçek anlamda tek doğru olanı olduğu (değişkenlerin farklılıkları büyük ölçüde farklılık gösterdiğinde bile) ve bu sürüm ne zaman kullanılamıyorsa, korelasyon tabanlı PCA'nın da kullanılmaması gerekiyor.

Bu konu olduğunu biliyorum: PCA korelasyon veya kovaryans? - fakat sadece cebirsel olarak doğru olan veya olmayabilir pragmatik bir çözüm bulmaya odaklanıyor gibi görünüyor.


4
Dürüst olacağım ve sorunuzu bir noktada okumayı bıraktığımı söyleyeceğim. PCA mantıklı. Evet, korelasyon mu yoksa varyans / kovaryans matrisini mi kullandığınıza bağlı olarak sonuçlar farklı olabilir. Değişkenleriniz farklı ölçeklerde ölçülürse korelasyon esaslı PCA tercih edilir, ancak bunun sonucu etkilemek istemezsiniz. 0 ile 1 arasında değişen bir dizi değişkeniniz varsa ve ardından çok büyük değerlere sahip (örneğin, 0 ile 1000 gibi) bir dizi değişkeniniz varsa, ikinci değişken grubu ile ilişkili büyük varyansın baskın olacağını hayal edin.
Patrick

4
Ancak bu, diğer birçok teknikte de geçerlidir ve Patrick'in amacının makul olduğunu düşünüyorum. Ayrıca sadece bir yorumdu, agresif olmaya gerek yoktu. Genel olarak konuşursak, neden soruna yaklaşmanın doğru bir "cebirsel" doğru yol olması gerektiğini varsayıyorsunuz?
Gala,

5
Belki de PCA'yı yanlış bir şekilde düşünüyorsunuz: bu sadece bir dönüşümdür, yani doğru ya da yanlış olduğu ya da veri modeliyle ilgili varsayımlara (yani, regresyon ya da faktör analizinin aksine) dayandığına dair hiçbir soru yoktur.
Scortchi - Monica'yı yeniden konumlandırın

5
Bu meselenin temel noktası, standardizasyonun ne olduğu ve PCA'nın nasıl çalıştığı konusunda yanlış anlaşılma gibi görünüyor. Bu anlaşılabilir bir durum çünkü PCA'nın iyi bir şekilde anlaşılması için daha yüksek boyutlu şekillerin görselleştirilmesi gerekiyor. Bu sorunun, bazı yanlış anlamalara dayanan diğer birçok soru gibi, bu nedenle iyi bir soru olduğunu ve açık kalması gerektiğini savunuyorum , çünkü cevabı / cevapları birçok kişinin daha önce tam olarak takdir edemeyeceği gerçekleri ortaya çıkarabilir.
whuber

6
PCA hiçbir şeyi “talep etmez”. İnsanlar PCA hakkında hak iddia ediyorlar ve aslında alana bağlı olarak çok farklı kullanıyorlar. Bu kullanımların bazıları aptalca veya sorgulanabilir olabilir, ancak tekniğin tek bir varyantının analizin içeriğine veya amacına atıfta bulunmadan “cebirsel olarak doğru” olması gerektiğini varsaymak çok aydınlatıcı görünmüyor.
Gala,

Yanıtlar:


29

Umarım iki sorunuza vereceğiniz cevaplar endişelerinizi yatıştırır:

  1. Bir korelasyon matrisi , standartlaştırılmış (yani sadece merkezlenmiş değil, aynı zamanda ölçeklendirilmiş) verilerin kovaryans matrisidir; yani, başka , farklı bir veri kümesinin bir kovaryans matrisi (sanki) . Bu yüzden doğal ve sonuçların farklı olması sizi rahatsız etmemelidir.
  2. Evet, standartlaştırılmış verilerle maksimum varyansın yönünü bulmak mantıklıdır; yani, eşit olmayan değişkenlerin - orijinal değişkenlerin - çok değişkenli veri bulutunun şekli üzerindeki etkisinden sonra çıkarıldı.

Sonraki metin ve @whuber tarafından eklenen resimler (Ona teşekkür ediyorum. Ayrıca, yorumumu aşağıya bakın)

İşte standart hale getirilmiş verilerin ana eksenlerini belirlemenin neden sağda olduğunu hala gösteren iki boyutlu bir örnek (sağda gösterilmiştir). Sağdaki arsada, koordinat eksenleri arasındaki farklılıklar şimdi tam olarak eşit (1.0'a eşit) olmasına rağmen bulutun hala bir "şekli" olduğuna dikkat edin. Benzer şekilde, daha yüksek boyutlarda, standartlaştırılmış nokta bulutu tüm eksenler arasındaki farklılıklar tam olarak eşit olsa bile (1.0'a) küresel olmayan bir şekle sahip olacaktır. Ana eksenler (karşılık gelen özdeğerleriyle) bu şekli tanımlar. Bunu anlamanın bir başka yolu da değişkenleri standardize ederken devam eden tüm yeniden ölçeklendirme ve kaymanın asıl yönlerde değil , sadece koordinat eksenlerinin yönlerinde meydana geldiğine dikkat etmektir .

şekil

Burada olan, geometrik olarak o kadar sezgisel ve açıktır ki, bunu bir "kara kutu operasyonu" olarak nitelendirmenin bir gerginliği olur: aksine, standardizasyon ve PCA sırayla verilerle yaptığımız en temel ve rutin şeylerden bazılarıdır. onları anlamak için.


@Ttnphns tarafından devam edildi

Kişi ne zaman kovaryanslar (yani merkezlenmiş değişkenler üzerinde) yerine korelasyonlar (yani z standardize edilmiş değişkenler üzerinde ) üzerinde PCA'yı (veya faktör analizi veya diğer benzer analiz türlerini ) yapmayı tercih eder ?

  1. Değişkenlerin farklı ölçü birimleri olduğunda. Bu açık.
  2. Biri analizin sadece ve sadece doğrusal dernekleri yansıtmasını istediğinde . Pearson r sadece ölçeklendirilmemiş (varyans = 1) değişkenler arasındaki kovaryans değildir; aniden doğrusal ilişkinin kuvvetinin ölçüsüdür, normal kovaryans katsayısı ise hem doğrusal hem de monotonik ilişkilere açıktır.
  3. Biri derneklerin ham ortak sapkınlıktan ziyade göreceli ortak sapkınlığı (ortalamadan) yansıtmasını istediğinde . Korelasyon orijinal ölçüm ölçeğine dayanırken korelasyon dağılımları, yayılımlarını temel alır. Hastaların psikiyatristlerin değerlendirdiği psikopatolojik profillerini Likert tipi maddelerden oluşan bazı klinik anketler üzerinde faktör analizi yapmam gerekirse, kovaryansları tercih ederim. Çünkü profesyonellerin derecelendirme ölçeğini intrapsişik olarak çarpıtması beklenmemektedir. Öte yandan, hastaların kendi portrelerini aynı anketle analiz etseydim, muhtemelen korelasyonları seçerdim. Layman'ın değerlendirmesinin göreceli "diğer insanlar", "çoğunluk" "izin verilen sapma" olması bekleniyor. Biri için derecelendirme ölçeğini "daraltan" veya "genişleten" büyüteç.

1
1. Üzgünüm, ama bu çok rahatsız ediyor. Harici bir birey için standardizasyon, PCA'nın ön koşullandırma sisteminin bir parçası olan (ayrıca ICA'da) bir kara kutu işlemidir. (Ham) girdi verileri için, özellikle PCA çıktısının fiziksel olarak yorumlanması gereken fiziksel (boyutsal) verilerle (yani standartlaştırılmamış değişkenler) ilgili olması durumunda bir cevap istiyor.
Lucozade

1
En son revizyonunuz "kovaryansa dayalı PCA'nın tek gerçek olan" olduğuna dair bir iddia olarak görünmektedir. Şu ana kadarki cevapların tamamının özünde olduğu gibi “Hayır; düşünmenin yanlış yolu; işte neden?” Böyle ezici anlaşmazlıklara karşı tartışmayı nasıl yönlendirmeyi beklediğinizi bilmek zordur.
Nick Cox

4
@ Lucozade: Başvurunuzla ilgili açıklamanız konusunda kafam karıştı: - PCA bir şeyi nasıl öneriyor ? Performansı nasıl ölçtünüz ? Son yorumunuz için de benzer şekilde: - Ne için optimum ?
Scortchi - Monica'yı yeniden konumlandırın

5
@ Lucozade: Gerçekten de, lütfen Scortchi'nin söylediklerini dinleyiniz, korkakları kovalamaya devam ediyor gibisiniz. PCA uzayda dönen özel bir veri şeklidir. Her zaman giriş verileriyle ne yaptığını en iyi şekilde yapar. Cov-corr ikilemi, PCA düzeyinde değil, veri işleme öncesi ve bu seviyede çözülen pragmatik bir problemdir.
ttnphns

1
@ Lucozade: Özel ihtiyacınıza göre cov tabanlı PCA isteme hakkınız olduğuna dair bana verdiğiniz cevaba göre (uzman olmayan) görüşüm olurdu. Yine, değişkenlerinizin hepsi veri / ölçüm tipi açısından aynıdır (aynı makine tipi ve tüm veriler volt cinsinden). Bana göre örneğiniz açıkça cov-PCA'nın doğru olduğu bir durumdur, ancak bunun her zaman böyle olmadığını lütfen unutmayın ve bunun iş parçacığı için bunun önemli bir nokta olduğunu düşünüyorum (cor v. Cov'un seçimi duruma özel ve ihtiyaç duyulur) Veriyi ve uygulamayı en iyi anlayan kişi tarafından belirlenir). Araştırmalarında bol şans!
Patrick

6

Uygulamalı bir bakış açısıyla konuşma - muhtemelen burada popüler değil - eğer farklı ölçeklerde ölçülen verileriniz varsa, o zaman korelasyona devam edin (eğer bir kemometrik olursanız 'UV ölçeklendirme'), ancak değişkenler aynı ölçekte ise ve bunların büyüklüğü önemliyse (örneğin, spektroskopik verilerle), sonra kovaryans (sadece verileri merkezleyen) daha mantıklı olur. PCA, ölçeğe bağlı bir yöntemdir ve aynı zamanda log dönüşümü yüksek oranda eğri verilere yardımcı olabilir.

20 yıllık pratik kemometri uygulamalarına dayanan alçakgönüllü görüşüme göre, biraz deney yapmalı ve veri türünüz için en iyi olanı görmelisiniz. Günün sonunda, sonuçlarınızı tekrar üretebilmeniz ve sonuçlarınızın öngörülebilirliğini kanıtlamaya çalışmanız gerekir. Oraya nasıl ulaşırsınız, genellikle bir deneme yanılma durumu vardır, ancak önemli olan, yaptığınız şeyin belgelenmiş ve yeniden üretilebilir olmasıdır.


4
Burada savunuculuğunu göründüğünüz pratik yaklaşım - hem kovaryans hem de korelasyonlar garanti edildiğinde - "her ikisini de dene ve en iyi olanı gör." Bu saf ampirik duruş, herhangi bir seçeneğin tamamen keyfi bir şekilde tercih ettiğini anlasa bile, araştırmacının önceden haberdar olması gerektiği gerçeğiyle ilgili kendi varsayımları veya paradigmasıyla devam ettiği gerçeğini gizler. “En iyi olanı” seçmek, neşe hissini, neşe hissini vurgulamaktır.
ttnphns

-2

Tarif ettiğim deneyin ayrıntılı ve teknik yönlerinin daha ayrıntılı bir tanımına girmeye vaktim yok ve kelimeler (öneri, performans, optimum) açıklamaları yine bizi ne tür girdi verisiyle ilgili olan gerçek sorundan uzaklaştıracaktır. PCA alabilir (almamalı) / almamalı (almamalı). PCA, sayıların doğrusal kombinasyonlarını alarak çalışır (değişkenlerin değerleri). Matematiksel olarak, elbette, herhangi iki (gerçek veya karmaşık) sayı eklenebilir. Fakat eğer PCA dönüşümünden önce yeniden ölçeklendirildiyse, lineer kombinasyonları (ve dolayısıyla maksimizasyon süreci) hala üzerinde çalışmak anlamlıdır mı? Eğer her değişkenxben aynı varyansa sahip s2açıkça o zaman evet, çünkü (x1/s1)+(x2/s2)=(x1+x2)/s hala orantılıdır ve verilerin fiziksel olarak konumlandırılması ile karşılaştırılabilir. x1+x2kendisi. Ama eğers1s2daha sonra standartlaştırılmış büyüklüklerin doğrusal kombinasyonu girdi değişkenlerinin verilerini farklılaştırırderece. Doğrusal kombinasyonlarının varyansını maksimize etmek için çok az nokta var. Bu durumda, PCA her bir değişkenin farklı şekilde ölçeklendiği farklı bir veri kümesi için bir çözüm sunar. Daha sonra daha sonra standartlaşmamışsanız (corr_PCA kullanırken), bu Tamam ve gerekli olabilir; fakat sadece raw corr_PCA çözümünü olduğu gibi alır ve orada durursanız, matematiksel bir çözüm elde edersiniz, ancak fiziksel verilere ilişkin bir çözüm bulamazsınız. Daha sonra standardizasyonun ardından asgari olarak zorunlu göründüğü için (yani, ters standart sapmalarla eksenleri 'gerdirerek'), cov_PCA başlamak için kullanılmış olabilir. Şimdiye kadar hala okuyorsanız, ben etkilendim! Şimdilik, Jolliffe'nin kitabından alıntı yaparak bitirdim, s. 42, beni ilgilendiren bölüm:Bununla birlikte, orjinal değişkenler açısından yeniden ifade edildiğinde, korelasyon matrisi PC'lerinin, standart değişkenlere göre varyansı maksimize eden ve orijinal değişkenlere göre değil, x'in doğrusal işlevleri olduğu unutulmamalıdır. ' Bunu veya sonuçlarını yanlış yorumladığımı düşünüyorsanız, bu alıntı daha fazla tartışma için iyi bir odak noktası olabilir.


3
O kadar eğlenceli ki, buradaki insanların size iletmeye çalıştığı her şeye uyum içinde olan kendi cevabınız sizin için huzursuz kalıyor. Hala PCA’da There seems little pointkorelasyonlar üzerinde tartışıyorsunuz . Ham veriye yakın durmanız gerekiyorsa ("fiziksel veriler", garip bir şekilde sizin dediğiniz gibi), başka bir ("çarpık") verilere karşılık geldiklerinden gerçekten korelasyon kullanmamalısınız.
ttnphns

2
(Devam) Jolliffe'nin alıntıları, korelasyonlarla elde edilen PC'lerin kendileri olacağı ve orijinal değişkenlerin lineer kombinasyonları olarak yeniden ifade edebilmenize rağmen, kovaryanslarda PC'lere "geri" çevrilemeyeceğini belirtir. Böylece, Jolliffe, PCA sonuçlarının kullanılan ön işleme türüne tamamen bağlı olduğu ve "gerçek", "orijinal" veya "evrensel" PC'lerin
bulunmadığı fikrini vurgulamaktadır

2
(Devam) Ve aslında, Jolliffe'nin altındaki birkaç satır, PCA - PCA'nın başka bir "formundan" X'Xmatris üzerinde konuşuyor . Bu form, cov-PCA'dan orijinal verilere bile "daha yakındır" çünkü değişkenlerin merkezlenmesi yapılmamaktadır. Ve sonuçlar genellikle tamamen farklıdır . PCA'yı kosinüslerde de yapabilirsiniz. İnsanlar PCA'yı, SSCP matrisinin tüm sürümlerinde, kovaryanslar veya korelasyonlar en sık kullanılan olsa da yaparlar .
ttnphns

3
Bu cevabın temelinde, verilerin ölçüldüğü birimlerin içsel bir anlamı olduğu varsayımı açıktır. Yani nadiren böyledir: Biz değiştirmeden, piko veya binyılda Angstrom, parsek, içinde uzunluğunu veya başka bir şey, ve süreyi ölçmek için tercih edebilir anlam veriler bir iota. Kovaryanstan korelasyona geçmek için yapılan değişiklikler sadece birimlerin değişiklikleridir (bu arada, özellikle dıştaki verilere karşı hassastır). Bu, sorunun korelasyona karşı kovaryans olmadığını , bunun yerine analiz için verileri ifade etmenin verimli yollarını bulmak olduğunu göstermektedir.
whuber

3
@ Ttnphns "Sadece" sadık kalacağım, teşekkürler. Sonuçların “derin” olup olmadığı gerçeği, bir değişkenin standardizasyonunun kelimenin tam anlamıyla affedilmesiyle değerlerinin yeniden ifade edilmesidir: ölçü birimlerinde bir değişiklik. Bu gözlemin önemi, en belirgin olanı "kovaryansa dayalı PCA'nın tek gerçek olanıdır" olan bu başlıkta ortaya çıkan bazı iddialar için çıkarımlarında yatmaktadır. Sonuç olarak verinin esasen keyfi bir yönüne dayanan herhangi bir doğruluk kavramı - bunları nasıl yazdığımız - doğru olamaz.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.