Ordinal veya ikili veri için Faktör analizi veya PCA var mı?


28

Temel bileşen analizi (PCA), keşfedici faktör analizi (EFA) ve doğrulayıcı faktör analizi (CFA) yaptım, sürekli olarak likert ölçeğine sahip verileri (5 seviyeli yanıtlar: yok, biraz, bazıları, ..) değişken. Sonra, Lavaan kullanarak, değişkenleri kategorik olarak tanımlayan CFA'yı tekrarladım.

Veriler doğada sıradan olduğunda ne tür analizlerin uygun olacağını ve PCA ve EFA ile eşdeğer olacağını bilmek isterim . Ve ne zaman ikili .

Ayrıca, bu tür analizler için kolayca uygulanabilecek belirli paketler veya yazılımlar için önerileri de takdir ediyorum.

Yanıtlar:


38

Geleneksel (doğrusal) PCA ve Faktör analizi , ölçek düzeyinde (aralık veya oran) veri gerektirir. Genellikle likert tipi derecelendirme verilerinin ölçek düzeyinde olduğu varsayılmaktadır, çünkü bu verilerin analizi daha kolaydır. Ve karar bazen, özellikle de sipariş verilen kategorilerin sayısı 5 veya 6'dan büyük olduğunda, istatistiksel olarak güvence altına alınmıştır (Tamamen mantıksal olarak veri tipi sorusu ve ölçek seviyesi sayısı farklı olsa da).

Polidoz likert skalasını sıralı olarak tedavi etmeyi tercih ederseniz ne olur? Ya da dikotom verileriniz var mı? Onlar için keşfedici faktör analizi veya PCA yapmak mümkün müdür?

Şu anda kategorik sıralı veya ikili değişkenlerde FA (özel durum olarak PCA da dahil olmak üzere) FA'yi gerçekleştirmek için üç ana yaklaşım vardır (aynı zamanda ikili veri vakası ile ilgili bu hesabı ve sıra ölçeğinde neler yapılabileceği ile ilgili bu incelemeyi okuyun).

  1. Optimal ölçeklendirme yaklaşımı (bir uygulama ailesi ). Ayrıca Kategorik PCA (CatPCA) veya doğrusal olmayan FA olarak da adlandırılır.. CatPCA'da, ordinal değişkenler, bu aralık verilerinden çıkarılan seçili ana bileşen sayısının açıkladığı varyansı maksimize etmek amacıyla, monotonik olarak ("nicelendirilmiş") "temel" aralık versiyonlarına dönüştürülür ("kantitatif"). Bu yöntem açıkça hedef odaklı (teori odaklı olmaktan ziyade) ve esas bileşen sayısına önceden karar vermek için önemli kılar. PCA yerine true FA gerekirse, normal doğrusal FA, CatPCA'dan çıkan dönüştürülmüş değişkenlerde doğal olarak gerçekleştirilebilir. İkili değişkenlerle, CatPCA (ne yazık ki?), Normal PCA biçiminde, yani sürekli değişkenlermiş gibi davranır. CatPCA ayrıca nominal değişkenleri ve değişken tiplerinin herhangi bir karışımını da kabul eder (hoş).

  2. Çıkarılan temel değişken yaklaşımı. Ayrıca PCA / FA olarak da bilinen tetrakorik (ikili veriler için) veya polipsik (sıra verileri için) korelasyonları üzerinde gerçekleştirildi. Her manifest değişkeni için altta yatan (daha sonra bindirilmiş) sürekli değişken için normal dağılım varsayılır. Daha sonra yukarıda belirtilen korelasyonları analiz etmek için klasik FA uygulanır. Yaklaşım kolayca sıralı, sıralı, ikili veri karışımına izin verir. Yaklaşımın bir dezavantajı, - korelasyonlar çıkarımında - temel değişkenlerin çok değişkenli dağılımına dair hiçbir ipucu olmadığı - çoğu değişkenli dağılımlarda "gebe" olabileceği, dolayısıyla tam bilgiye dayanmadığıdır.

  3. Madde cevap teorisi (IRT) yaklaşımı. Bazen lojistik FA veya gizli özellik analizi de denir . İkili logit'e (ikili veriler için) çok yakın bir model veya orantılı log oranları (sıralı veriler için) modeli uygulanır. Algoritma, bir korelasyon matrisinin ayrıştırılması ile bağlantılı değildir, bu yüzden geleneksel FA'den biraz uzakta, yine de bir iyi niyetli kategorik FA'dir. "Ayrımcılık parametreleri", FA yüklemelerine yakından karşılık gelir, ancak "zorluklar", FA'nin "benzersizlikleri" kavramının yerine geçer. IRT uydurma kesinliği, bu yaklaşımın sorunlu bir yanı olan faktör sayısı arttıkça hızla azalır. IRT, karışık aralık + ikili + ordinal ve muhtemelen nominal değişkenleri içerecek şekilde kendiliğinden gerçekleştirilebilir.

Yaklaşımdaki (2) ve (3) faktör faktörü puanlarının klasik FA veya yaklaşımdaki (1) faktör puanlarından daha zordur. Bununla birlikte, birkaç yöntem vardır (beklenen ya da maksimum empoze etme yöntemleri, en yüksek olabilirlik yöntemi, vb.).

Faktör analizi modeli varsayımları, temel olarak geleneksel FA'deki üç yaklaşımda aynıdır. Yaklaşım (1), R, SPSS, SAS'ta (aklımda) mevcuttur. Yaklaşımlar (2) ve (3) çoğunlukla özel gizli değişkenli paketlerde uygulanmaktadır - Mplus, LISREL, EQS.

  1. Polinom yaklaşımı. Bu henüz tam olarak gelişmedi. Temel bileşenler değişkenlerin polinom kombinasyonları olarak modellenebilir ( polinomları kullanarak sıralı regresörlerin doğrusal olmayan etkilerini modellemek için popüler bir yoldur). Ayrıca, sırayla gözlenen kategoriler gizli faktörlerin polinom kombinasyonlarının ayrık tezahürleri olarak modellenebilir.

  2. Doğrusal olmayan boyutsallık azaltma tekniklerinin gelişen bir alanı vardır ; bazıları kategorik verilerle çalışmak için uygulanabilir veya kabul edilebilir (özellikle ikili veya yüksek boyutlu bir seyrek veri kümesine bindirildikten sonra).

  3. Rütbe korelasyonları veya kategorik veriler için uygun diğer ilişkilendirmeler üzerinde klasik (doğrusal) FA / PCA (Spearman / Kendall / Somer's vs.) yapılması. Sıralı verilerde, bu tamamen sezgisel bir yaklaşımdır, teorik temelleri yoktur ve hiç tavsiye edilmez. İkili verilerde Spearman rho ve Kendall tau-b korelasyonları ve Phi birleşimi hepsi Pearson r korelasyonuna eşittir, bu nedenle bunları kullanmak ikili veri üzerinde olağan lineer FA / PCA yapmaktan başka bir şey değildir ( burada bunun tehlikesi vardır ). Bu üzerinde analizler yapıyor (sorgulanamaz değil olsa) da mümkündür yeniden ölçeklemek bağlı bugünkü büyüklüğü wrt.r

De bak bu , bu , bu , bu , bu , bu , bu , bu .


3
Olağanüstü cevap. Eklenecek tek şey, (2) 'de (fa fonksiyonu için "cor" seçeneğine bakınız) ve (3)' te psikiyatri paketini R 'de kullanabileceğinizi düşünüyorum (irt.fa ve irt.poly işlevlerine bakınız). ) Çeşitli derecelerde ve ltm paketi ayrıca birçok IRT modeline uyması için de kullanılabilir.
jsakaluk

1
Onlar farklı olabilir. "Lineer olmayan FA" (CatPCA-then-EFA) ile birkaç kez envanter oluşturma / doğrulama yaptım ve sonuçları normal (doğrusal) EFA'dan daha iyi buldum. Benim kabul ettiğim prosedür, her zamanki FA ile aynıydı; tek fark, her analiz için - denediğim her bir ürün seti ve çıkardığım her sayıda faktör - CatPCA-sonra yaptım (sonra nicel değişkenlerde) -EFA pas de deux .
ttnphns

@jsakaluk, bilgi için çok fazla. (Ben R kullanıcısı değilim, bu yüzden sadece olağanüstü kapasitesini biliyorum).
ttnphns

Bu tür cevaplar için teşekkür ederim. @ttnphns Bugün çoğu zaman SPSS'de CATPCA'yı uygulamak için harcadım. İki öğretici bulmayı başardım (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) birkaç sorumu cevaplayamadım. Bazı teknik soruları ele almak için iyi bir çıkış önerebilir misiniz? Tekrar teşekkürler.
user116948

1
@ user116948, SPSS'de bununla nasıl çalışılacağını anlamakta zorluk çekiyorsanız: Her şeyden önce, Yardım menüsünde SPSS Durum Çalışmaları alt menüsünde bulunan CATPCA vaka çalışmasını bulun ve okuyun. İkinci olarak, bu sitede daha önce sorduğum CATPCA ile ilgili tüm sorulara göz atın. Üçüncüsü: hala sorularınız varsa - siteye yeni bir soru olarak sorun. Endişelenmeyin: eğer "çok teknik" ise, StackOveflow'a aktarılabilir. İleri: orada sorunuzu sormak için bir SPSS topluluğu seçin (SPSSXL en iyisidir). Şerefe.
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.