Faktör analizinde ikili değişkenler için Pearson korelasyonlarını (tetrashorik olanlardan ziyade) hesaplamanın tehlikeleri nelerdir?


10

Eğitsel oyunlar üzerine araştırma yapıyorum ve mevcut projelerimden bazıları , oyunların tasarım öğeleri arasındaki ilişkileri incelemek için BoardGameGeek (BGG) ve VideoGameGeek (VGG) verilerini kullanmayı içeriyor (yani "II. Dünya Savaşı'nda ayarlandı", "yuvarlanan zarları içeriyor") ) ve bu oyunların oyuncu puanları (10 üzerinden skorlar). Bu tasarım öğelerinin her biri, BGG veya VGG sistemindeki bir etikete karşılık gelir, bu nedenle her bir eleman esasen bir çift değişkentir. Bir oyunun veritabanında bulunan her etiket için 1 ve mevcut olmayan her etiket için 0 değeri vardır.

Bu etiketlerin onlarca vardır, bu yüzden oyun tasarımında desen yakalayan yönetilebilir bir dizi "tür" bulmak için keşif faktörü analizi (EFA) kullanmak istiyorum . Birkaç kaynağa danışarak , iki değişkenli değişkenlerle çalıştığım için , faktörlerimle gelince (gizli özellik analizi gibi - diğer seçenekler de var) Pearson yerine polikrik korelasyonlar ( özellikle burada tetrasik) kullanmam gerektiğini anlıyorum. ama şu an araştırdığım şey bu).

Meraktan, biri Pearson korelasyonları, diğeri de polikrik korelasyonları (her seferinde aynı sayıda faktör) kullanan iki faktör kümesi buldum. Benim sorunum, Pearson korelasyonları kullanılarak hesaplanan faktörlerin, psikolojik korelasyonlar kullanılarak hesaplanan faktörlerden çok daha anlamlı ve yorumlanması daha kolay olmasıdır. Başka bir deyişle, ilk faktör kümesinden gelen "türler" sezgisel bir anlam ifade eder ve oyunların tipik olarak nasıl tasarlandığına dair anlayışımla örtüşür; ikinci faktör grubu için durum böyle değildir.

Bir yandan, sonuçlarımı daha az güzelleştirse bile, kullandığım testlerin varsayımlarını karşıladığımdan emin olmak istiyorum. Öte yandan, faktör analizi ve (daha geniş anlamda) model oluşturma hedefinin bir kısmının yararlı bir şey bulmak olduğunu ve "kuralları çiğnediğimde" daha yararlı bilgiler ortaya çıktığını hissediyorum. Bu testin varsayımlarını ihlal ederek ağır basacak faydalı bir modele ihtiyaç var mı? Polikrik olanlardan ziyade Pearson korelasyonlarını kullanmanın sonuçları tam olarak nedir?


1
Altta yatan çok değişkenli normallik varsayımları, üç ya da daha fazla boyuttaki verilerle o kadar güçlüdür ki, polikrik korelasyonlar bu kadar anlamlı olmayı bırakmaktadır. Polikrik korelasyonlarla model yanlış ifadesinin derecesi büyük olasılıkla analizinizi işe yaramaz hale getirir. İlk etapta neden bu korelasyonlara ihtiyaç duyduğunuzdan emin değilim: net bir sonuç değişkeniniz (derecelendirme) ve bir grup açıklayıcı değişken (tasarım özellikleri) varsa, faktör analizine değil, regresyon analizine ihtiyacınız vardır.
StasK

@StasK regresyon analizi ise benim nihai hedefi, ama üzerinde 100 açıklayıcı değişkenler var ve daha yönetilebilir bir numaraya o azaltmak istiyoruz.
Spencer Greenhalgh

Ayrıca, bu tür problemler için sınıflandırma kendi başına bir hedeftir.
Pere

Yanıtlar:


7

Doğrusal Faktör analizi teorik olarak , mantıksal olarak sadece sürekli değişkenler içindir. Değişkenler sürekli değilse, ancak örneğin ikiliyse, sizin için bir yol, altta yatan sürekli değişkenleri kabul etmek ve gözlenen değişkenlerin altta yatan veya gerçek değişkenler olduğunu beyan etmek olacaktır. İkili bir değişkeni, yabancı bir "eğitmen" olmadan bir ölçeğe dönüştürebilirsiniz, ancak değişkenleriniz henüz binmediyse ve normalde "orijinal" sürekli dağıtılmış olsaydı, bu korelasyonları çıkartabilirsiniz . Ve bu tetrakhorikkorelasyonlar (veya ikili yerine polikrik, sıra değişkenleriniz varsa). Bu nedenle, Phi korelasyonları (dikotom verilerle gözlemlenen Pearson korelasyonları) yerine tetrasik korelasyonların (çıkarım Pearson korelasyonları) kullanılması mantıklı bir eylemdir.

İkili olarak ikili değişkenler üzerinde hesaplanan Phi korelasyonları, binmenin gerçekleştiği kesme noktasına (diğer bir deyişle "görev zorluğu seviyesi") çok duyarlıdır. Bir çift değişken teorik sınırını ancak eşdeğer kesme noktası üzerine oturtulduklarında elde etmeyi umabilir . İçlerindeki kesme noktası ne kadar farklı olursa, aralarındaki olası maksimum sınırı o kadar düşük olur. (Bu marjinal dağılımların benzerliğinin Pearson için olası aralık üzerindeki genel etkisidir.r rr=1rrancak iki değişkenli değişkenlerde bu etki çok keskindir çünkü alınacak çok az değer vardır.) Yani, matrislerindeki phi korelasyonları, dikotomik değişkenlerdeki zıt marjinal dağılımlar nedeniyle eşit olmayan bir şekilde sönük olarak görülebilir; bir korelasyonun başka bir "gerçekten" den büyük olup olmadığını veya bu iki değişken çiftindeki farklı kesme noktalarından dolayı olup olmadığını bilmiyorsunuz. Çıkartılacak faktörlerin sayısı ( Kaiser'in "özdeğer> 1" gibi kriterleri takiben) şişirilecektir: bazı çıkarılan "faktörler", kesik noktaların çeşitliliği, kesin noktaların çeşitliliği değil - önemli gizli faktörler. Bu, phi korelasyonlarını (en azından ham - ölçeklendirilmemiş) formlarının kullanılmamasının pratik nedenidir.

Simülasyon / binning çalışmalarında, matrisde çok güçlü (> 0.7) korelasyonlar varsa tetrasik korelasyonlara dayanan faktör analizinin kötüleştiğine dair kanıtlar vardır. Tetrashoric korelasyon ideal değildir: eğer ilişkili altta yatan değişkenlerin kesme noktaları karşıtlarda ise (ve böylece dikotomdaki marjinal dağılımlar ters yönde eğrilmişse), altta yatan ilişki güçlü ise, tetrashorik katsayı onu daha da fazla tahmin eder. Ayrıca tetrashorik korelasyon matrisinin büyük örneklerde mutlaka pozitif semidefinit olmadığını ve bu nedenle düzeltmeye ("yumuşatma") gerekebileceğini unutmayın. Yine de, pek çok kişi tarafından düz Pearson (phi) katsayıları üzerinde faktör analizi yapmaktan daha iyi bir yol olarak kabul edilmektedir.

Ama neden ikili veriler üzerinde faktör analizi yapıyorsunuz ? Gizli özellik / IRT (bir tür "lojistik" faktör analizi) ve Çoklu Yazışma analizi (ikili değişkenlerinizi nominal kategoriler olarak görüyorsanız) gibi başka seçenekler de vardır.

Ayrıca bakınız:


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.