Sürekli ve kategorik değişkenlerin karışımını içeren veri setlerine ana bileşen analizi uygulanabilir mi?


147

Hem sürekli hem de kategorik verileri olan bir veri setine sahibim. PCA kullanarak analiz ediyorum ve kategorik değişkenleri analizin bir parçası olarak dahil etmenin uygun olup olmadığını merak ediyorum. Anladığım kadarıyla PCA sadece sürekli değişkenlere uygulanabilir. Bu doğru mu? Kategorik veriler için kullanılamazsa, analizleri için hangi alternatifler var?



ResearchGate hakkında bir tartışma var: researchgate.net/post/Should_I_use_PCA_with_categorical_data
GoingMyWay

Yanıtlar:


87

İkili verilere uygulanan bir PCA, Çoklu Muhabirlik Analizinden elde edilen sonuçlarla karşılaştırılabilir sonuçlar verse de (faktör puanları ve özdeğerler doğrusal olarak ilişkilidir), karışık veri türleri ile başa çıkmak için daha uygun teknikler vardır; FactoMineR R paketi ( AFDM()). Değişkenleriniz, tanımlayıcı niteliklerin yapılandırılmış altkümeleri olarak kabul edilebilirse, Çoklu Faktör Analizi ( MFA()) de bir seçenektir.

Kategorik değişkenlerle olan zorluk, faktör kategorisindeki ve değişken kategorilerdeki faktörler arasındaki mesafeleri temsil etmenin uygun bir yolunu bulmaktır. Bu sorunun üstesinden gelmek için, her bir değişkenin doğrusal olmayan dönüşümünü - ister nominal ister sıralı, polinomlu veya sayısal olsun - en uygun ölçeklendirmeyle arayabilirsiniz. Bu, R'de: Optimal Ölçeklendirme için Gifi Metodlarında açıklanmıştır : Paket homals ve ilgili R paketi homalsında bir uygulama mevcuttur .


2
chl, FADM'ye göstericiniz için teşekkürler. Yine de merak ediyordum: Bir veri setine FADM uyguladıktan sonra (obj <- FADM (x)), dönüştürülen veri setine kolayca erişebiliyorum: obj $ ind $ coord. Ancak, aynı dönüşümü başka bir veri kümesine uygulamak istersem, nasıl yapabilirim? (Örneğin, bir tren setine sahipsem ve bu tren setinden "ana bileşenleri" bulup, sonra da bu "ana bileşenler" üzerinden test setine bakmak istersek gereklidir.) Dokümantasyon bu konuda pek net değil ve fonksiyonun dayandığı kağıt Fransızca.
casandra

İle ilgili olarak: Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence AnalysisNominal bir kategorik değişkeni (N kardinalite ile diyelim) bir (N-1) kukla ikili dosya koleksiyonuna çevirip PCA'yı bu veriler üzerinde gerçekleştiremez miyiz? (Daha uygun teknikler olduğunu
biliyorum

31

Bir Google arama "ayrık değişkenler için pca", S. Kolenikov (@StasK) ve G. Angeles tarafından bu güzel genel bakış sunar . Chl cevabını eklemek için, PC analizi gerçekten kovaryans matrisinin özvektörlerinin analizidir. Bu yüzden sorun "doğru" kovaryans matrisinin nasıl hesaplanacağı. Yaklaşımlardan biri de, politik ilişki kullanmaktır .


Link.It için (1) Teşekkürler (bakınız, örneğin heterojen bir korelasyon matrisi dikkate almak da mümkündür hetcor()gelen polycor paketinde). VC matrisi SDP olması koşuluyla, işi yapmalıdır - çoğunlukla Faktör Analizi ruhu içinde. Nominal değişkenler kukla kodlanmış olabilir.
chl

@StasK, kudos :) Görünüşe göre bu konuşmayı sadece benim için faydalı bulmuyorum, aksi halde gooogle aramalarında üst sıralarda olmayacaktı. Bu soru zaman zaman ortaya çıkıyor, belki de topluluk blogumuz için blog yazısı yayınlamak istersiniz?
mpiktas

@StasK, genel bakışın yazarlarından bahsetmek için yazıyı düzenledim. İlk niyetim, google'da arama yapmanın iyi cevaplar verebileceğini göstermekti, bu yüzden burada sormaya gerek yok. Ancak bu, internetin değişkenliği göz önüne alındığında yazarları alıntılamamak için bir bahane değil.
mpiktas

1
@mpiktas, teşekkürler. Bu işten elde edilen ekonomistleri hedef alan gerçek bir makale vardı: dx.doi.org/10.1111/j.1475-4991.2008.00309.x , editörler bizden çalışma kağıdını okumamı önermek için çok fazla şey kesmemizi istedi. bilgi ve yayınlanan bir alıntı.
11’deki StasK

9

Linting & Kooij, 2012 " CATPCA ile doğrusal olmayan temel bileşen analizi: bir öğretici ", Kişilik Değerlendirme Dergisi ; 94 (1).

Soyut, Özet

Bu makale, doğrusal olmayan temel bileşen analizi (NLPCA) için, Rorschach Inkblot Testi ile kişilik değerlendirmesine ilişkin gerçek verileri analiz etme sürecinde okuyucuyu sistematik olarak yönlendiren bir öğretici olarak hazırlanmıştır. NLPCA, doğrusal olmayan ilişkili olabilecek değişkenlerin farklı ölçüm düzeylerinde analizini yapabilen doğrusal PCA'ya göre daha esnek bir alternatiftir. Yöntem, muhtemelen sayısal verilerle birleştirilen nominal (nitel) ve sıra (örneğin Likert tipi) verilerini analiz etmek için özellikle uygundur. SPSS’deki Kategoriler modülünden gelen CATPCA programı analizlerde kullanılır, ancak yöntem açıklaması diğer yazılım paketlerine kolayca genelleştirilebilir.


4

Henüz birinin gönderisine yorum yapma ayrıcalığına sahip değilim, bu yüzden yorumumu ayrı bir cevap olarak ekliyorum.

@Martin F'nin yorumuna devam ederken, son zamanlarda doğrusal olmayan PCA'larla karşılaştım. Sürekli değişken bir değişken, sıradan bir değişkenin dağılımına yaklaşırken, veriler gittikçe azaldıkça, doğrusal olmayan PCA'ları olası bir alternatif olarak görüyordum (genetikte değişkenin minör allel frekansı azaldıkça ve azaldığında, çoğu zaman genetikte olur. İçinde sürekli bir değişkenin dağılımını gerçekten haklı çıkaramayacağınız ve çok düşük sayıdaki sayılarla, sıralı bir değişken veya kategorik bir değişken yaparak dağıtım varsayımlarını gevşetmeniz gerekir.) Doğrusal olmayan PCA, bu koşulların her ikisini de halledebilir. Genetik fakültesinde istatistik ustalarla tartışmak, Konsensüs çağrısı, Doğrusal Olmayan PCA'ların çok sık kullanılmadığı ve bu PCA'ların davranışlarının henüz kapsamlı bir şekilde test edilmediği (sadece genetik alanından bahsediyorlardı, lütfen tuz tuzu ile alın) idi. Gerçekten de büyüleyici bir seçenek. Umarım tartışmaya 2 sent (Neyse ki alakalı) ekledim.


Cevabını kabul ediyorum, Mandar. CATPCA yöntemi ile doğrusal olmayan PCA veya başka bir doğrusal olmayan PCA (yani, o zaman?) Anlamına mı geliyorsunuz? Ayrıca, ikili değişkenler için CATPCA'nın işe yaramaz ya da önemsiz olduğuna dikkat edin, çünkü iki boyutlu bir ölçek, iki boyuttan başka bir değere sahip olamaz.
ttnphns,

Sana teşekkür ederim. İkili değişkenler için ikili değişken hakkındaki noktanızı kabul ediyorum, herhangi bir varsayımın önemi yoktur. Aksi halde "Doğrusal olmayan PCA'ya Giriş" [link] ( openaccess.leidenuniv.nl/bitstream/handle/1887/12386/… ) adlı bir kitap bölümüne değiniyordum . Esas olarak CATPCA ve SAS'tan PRINQUAL paketleri ile ilgilidir.
Mandar,

2

Bu tür sorunlara yakın zamanda geliştirilen bir yaklaşım var: Genelleştirilmiş Düşük Sıra Modelleri .

Bu tekniği kullanan yazılardan biri bile Veri Çerçevesinde PCA olarak adlandırılıyor .


PCA şöyle olabilir:

nmM

nkX^kmY^k

X^,Y^argminX,YMXYF2

F2


Bu, yeni bir fikirden çok yeniden icat gibi görünüyor. Gifi arayın!
kjetil b halvorsen

Tam olarak haklı değilsin, öyle görünüyor ki GLRM bir genellemedir (aslında bağladığım kağıt gifi paket kağıdına atıfta bulunur).
Jakub Bartczuk

1

PCAmixdata#Rstats paketi :

Nicel ve nitel değişkenlerin bir karışımı için ana bileşen analizi, ortogonal rotasyon ve çoklu faktör analizi uygular.

Skeçten örnek, hem sürekli hem de kategorik çıktı için sonuçları gösterir.

görüntü tanımını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.