Çok sayıda Evet / Hayır yanıtı içeren bir veri kümem var. Bu tür veriler için ana bileşenleri (PCA) veya başka bir veri azaltma analizini (faktör analizi gibi) kullanabilir miyim ? Lütfen bunu SPSS kullanarak nasıl yapacağımı bildir.
Çok sayıda Evet / Hayır yanıtı içeren bir veri kümem var. Bu tür veriler için ana bileşenleri (PCA) veya başka bir veri azaltma analizini (faktör analizi gibi) kullanabilir miyim ? Lütfen bunu SPSS kullanarak nasıl yapacağımı bildir.
Yanıtlar:
PCA veya Faktör analizinde iki veya iki değişkenli değişkenler sorusu sonsuzdur. "Yasaktır" dan "tamam" a kadar kutupsal görüşler vardır, "yapabilirsin ama çok fazla faktör alırsın" gibi bir şey. Benim şu anki görüşüm şöyle. İlk olarak, ikili gözlenen değişkenin ayrık olduğunu ve herhangi bir şekilde sürekli olarak ele alınmasının uygun olmadığını düşünüyorum. Bu ayrık değişken, faktöre veya ana bileşene yol açabilir mi?
Faktör analizi (FA). Tanım gereği, gözlemlenebilir değişkenleri ( 1 , 2 ) yükleyen sürekli bir gizildir . Sonuç olarak, ikincisi, faktör tarafından yeterince yüklendiğinde sürekli olamaz (veya aralık, daha pratik konuşulur). Ayrıca, doğrusal regresyonel doğası nedeniyle FA, uniqness olarak adlandırılan kalan kısmın da sürekli olduğunu ve bu nedenle gözlemlenebilir değişkenlerin hafifçe yüklendiğinde bile sürekli olması gerektiğini varsayar. Bu nedenle, ikili değişkenler kendilerini FA’de yasatamazlar. Bununla birlikte, en az iki yol var: (A) Pürüzlülüğün altında yatan değişkenlerin devam ettiği gibi ikiliklerin var olduğunu kabul edin ve tetraforik - Pearson yerine korelasyonlarla FA yapın; (B) Faktörün doğrusal değil ama lojistik olarak dikoton bir değişken yüklediğini ve lineer FA yerine Latent Trait Analysis (aka Item Response Theory) yaptığını varsayın. Daha fazlasını oku .
Temel Bileşen Analizi (PCA). FA ile çok ortak olmasına rağmen, PCA bir modelleme değil, sadece bir özetleme yöntemidir. Bileşenler değişkenleri yükleyen faktörlerle aynı kavramsal anlamda değişkenleri yüklemez. PCA'da, bileşenler değişkenleri yükler ve değişkenler bileşenleri yükler . Bu simetri, PCA'nın yalnızca uzaydaki değişken-eksenlerin bir dönüşü olması nedeniyledir. İkili değişkenler, bir bileşen için kendi kendileri tarafından gerçek süreklilik sağlamazlar - sürekli olmadıkları için, ancak sözde süreklilik, herhangi bir şekilde ortaya çıkabilecek PCA-dönüş açısı ile sağlanabilir. Böylece PCA'da ve FA'nin aksine, tamamen ikili değişkenlerle (döndürülmemiş eksenler) görünüşte sürekli boyutlar (döndürülmüş eksenler) elde edebilirsiniz - açı süreklilik nedenidir
İkili verilerin FA veya PCA'si ile ilgili bazı sorular: 1 , 2 , 3 , 4 , 5 , 6 . Oradaki cevaplar potansiyel olarak benimkinden farklı görüşler ifade edebilir.
seviye varlıkları - nokta olarak değişkenler veya puan olarak kategoriler için - ana eksenler uzayındaki koordinatları gerçekten meşru ölçek değerleridir. Ancak , ikili verilerin veri noktaları (veri durumları) için değil - “puanları” sözde sürekli değerlerdir: içsel ölçü değil, sadece bazı kaplama koordinatları.
İkili veri örneği (sadece iki değişkenli basit bir durum):
Aşağıdaki saçılım grafikleri, veri noktalarını biraz daraltılmış (frekans oluşturmak için) gösterir ve ana bileşen eksenlerini, üzerinde bileşen puanları taşıyan köşegen çizgiler olarak gösterir [bu puanlar, iddiaya göre sözde sürekli değerlerdir]. Her resimdeki sol arsa, orijinden gelen "ham" sapmalara dayanarak PCA'yı gösterirken, sağ arsa, ondan ölçeklendirilmiş (diyagonal = birim) sapmalara dayanan PCA'yı gösterir.
1) Geleneksel PCA, (0,0)
menşei veri ortalamasına (centroid) yerleştirir. İkili veriler için ortalama, olası bir veri değeri değildir. Bununla birlikte, fiziksel ağırlık merkezidir. PCA bu konuda değişkenliği en üst düzeye çıkarır.
(İkili değişken bir ortalamada ve varyansın kesinlikle birbirine bağlı olduğunu da, "tek bir şey" demek istediklerini de unutmayın. İkili değişkenlerin standartlaştırılması / ölçeklendirilmesi, yani, kovaryans değil, korelasyonlara dayanarak PCA yapılması Mevcut örnek, PCA'yı çarpıtılmış değişkenlerden daha büyük etkilemek için - daha büyük değişkenliğe sahip - daha dengeli değişkenleri engellediğiniz anlamına gelir.)
2) PCA'yı merkezlenmemiş verilerde yapabilirsiniz, yani orijinin (0,0)
konuma gitmesine izin verin (0,0)
. MSCP ( X'X/n
) matrisinde veya kosinüs benzerlik matrisinde PCA'dır. PCA, özniteliksiz durumdan çıkılabilirliği en üst düzeye çıkarır.
3) Menşe (0,0)
mesafesinin, Manhattan ile arasındaki en küçük toplamın veri noktasında, diğer tüm veri noktalarına (L1 medoid) kalmasına izin verebilirsiniz. Medoid, genellikle, en "temsili" veya "tipik" veri noktası olarak anlaşılır. Bu nedenle, PCA atipaliteyi en üst düzeye çıkarır (frekansa ek olarak). Verilerimizde L1 medoid, (1,0)
orijinal koordinatlara düştü .
4) Veya orijini (0,0)
, frekansın en yüksek - çok değişkenli mod olduğu veri koordinatlarına koyun . Öyle (1,1)
bizim örneğimizde veri hücresi. PCA genç modları en üst düzeye çıkaracak (sürecek).
5) Telesekreter kuruluşunda, iki değişkenli değişkenler üzerinde faktör analizi yapmak için tetrakorik korelasyonların sağlam bir mesele olduğu belirtilmiştir. PCA için de aynı şey söylenebilir: PCA'yı tetrakorik korelasyonlara dayanarak yapabilirsiniz . Bununla birlikte, bu bir ikili değişken içinde altta yatan bir sürekli değişkeni varsaydığınızı gösterir.