Küme analizi için değişken seçimi yapmak için PCA kullanabilir miyim?


12

Bir küme analizi yapabilmek için değişken sayısını azaltmalıyım. Değişkenlerim güçlü bir şekilde ilişkilidir, bu yüzden bir Faktör Analizi PCA (temel bileşen analizi) yapmayı düşündüm . Ancak, elde edilen puanları kullanırsam, kümelerim tam olarak doğru değildir (literatürdeki önceki sınıflandırmalara kıyasla).

Soru:

Her bileşen / faktör için en büyük yüke sahip değişkenleri seçmek için rotasyon matrisini kullanabilir ve kümeleme için yalnızca bu değişkenleri kullanabilir miyim?

Herhangi bir bibliyografik referans da faydalı olacaktır.

Güncelleme:

Bazı açıklamalar:

  • Amacım: SPSS tarafından iki aşamalı algoritma ile bir küme analizi yapmak zorundayım, ancak değişkenlerim bağımsız değil, bu yüzden bazılarını atmayı düşündüm.

  • Veri setim: 100.000 vakanın 15 skaler parametresi (değişkenlerim) üzerinde çalışıyorum. Bazı değişkenler güçlü bir şekilde ilişkilidir ( Pearson)>0.9

  • Şüphem: Sadece bağımsız değişkenlere ihtiyacım olduğu için, bir Temel Bileşen Analizi çalıştırmayı düşündüm (üzgünüm: orijinal sorum, yanlışımdaki Faktör Analizi hakkında yanlış konuştum) ve sadece her bileşen için en büyük yükleri olan değişkenleri seçtim. PCA sürecinin bazı keyfi adımlar sunduğunu biliyorum, ancak bu seçimin aslında IT Jolliffe (1972 ve 2002) tarafından değişkenleri seçmek için önerilen ve 1999'da JR King ve DA Jackson tarafından önerilen " yöntem B4 " ile benzer olduğunu öğrendim .

    Bu yüzden bağımsız değişkenlerin bazı alt gruplarını seçmeyi düşünüyordum. Daha sonra grupları farklı küme analizi yapmak için kullanacağım ve sonuçları karşılaştıracağım.


1
Doğru cevabı biliyorsanız, analiz neden hiç yapmıyor?
StasK

1
Başka bir notta, neden küme analizi için değişken sayısını azaltmanız gerektiğini düşünüyorsunuz? Modern küme analizi araçlarının hiçbirinin girdi değişkenlerinin sayısı konusunda herhangi bir sınırlaması olmadığını düşünüyorum. Elbette 120 maddelik bir testiniz varsa, işler onunla karmaşıklaşacaktır.
StasK


Bana öyle geliyor ki, bu Q'nun küme analizi yönünün eklenmesi onu açık kalacak kadar belirgin kılıyor.
gung - Monica'yı eski

Kopyalara benden daha katı kriterler uyguluyorsun, @gung; belki de haklısınız (ve oylama da bu konuda iyi gitmiyor). Bununla birlikte, bu özel durumda OP, önerdiğim iş parçacığında kapsanan en basit PCA tabanlı özellik seçimini (güncellemesinde açıklandığı gibi) soruyordu. Öte yandan, StasK burada özellikle kümelenme ile ilgili ilginç bir cevap yayınladı ...
amip diyor Reinstate Monica

Yanıtlar:


7

Geleneklerim gibi, bir adım geriye gideceğim ve tam olarak ne yapmaya çalıştığınızı soracağım. Faktör analizi, gizli değişkenleri bulmak için tasarlanmıştır. Gizli değişkenleri bulmak ve kümelemek istiyorsanız, yaptığınız şey doğrudur. Ancak, değişkenlerin sayısını azaltmak istediğinizi söylüyorsunuz - bu, temel bileşen analizini önerir.

Bununla birlikte, bunlardan herhangi biriyle, yeni değişkenler üzerinde küme analizini yorumlamanız gerekir ve bu yeni değişkenler, eskilerinin ağırlıklı toplamlarıdır.

Kaç değişkeniniz var? Ne kadar ilişkili? Çok fazla varsa ve çok güçlü bir şekilde ilişkiliyse, çok yüksek bir sayıdaki tüm korelasyonları arayabilir ve her bir çiftten rastgele bir değişkeni silebilirsiniz. Bu, değişken sayısını azaltır ve değişkenleri oldukları gibi bırakır.

Ayrıca, @StasK'ı bunu yapma ihtiyacı hakkında ve @ rolando2'yi daha önce bulunanlardan farklı bir şey bulmanın yararlılığı hakkında yankılayayım. Gravür okulundaki en sevdiğim profesör olarak "Eğer şaşırmazsan, hiçbir şey öğrenmedin" derdi.


1
her şeyden önce, özür dilerim: Aslında, faktör analizine değil, benim hatam değil, Temel bileşenler analizine atıfta bulunuyorum. Dahası, ben tutacağım keyfi cadı ilişkili değişken seçmek için bir yol bulmak için arıyordu. Yukarıdaki sorun hakkında daha fazla bilgi ekliyorum .. tekrar teşekkür ederim
tr.

5

Faktör analizi ve küme analizini aynı anda gerçekleştirmenin bir yolu, yapısal eşitlik karışımı modellerinden geçer. Bu modellerde, her küme için ayrı modeller (bu durumda faktör modelleri) olduğunu varsayarsınız. Kovaryans analizi ile birlikte ortalama analize sahip olmanız ve daha büyük ölçüde sade vanilya faktörü analizinde tanımlanması ile ilgilenmeniz gerekir. SEM tarafından yaklaşılan fikir Jedidi et. ark. (1997) ve kümelenme tarafından, Adrian Raftery'nin model tabanlı kümelemede . Bu tür analizler görünüşe göre Mplus'ta mevcuttur .


1
girdiler için teşekkür ederim, özellikle referanslar için, ama yanlış Faktör Analizine atıfta bulundum: Değişkenlerimi bir bağımsız değişkenler alt grubuna indirmek için aslında Temel Bileşenler'i düşünüyordum. benim hatam
tr.

2

Bunun saf ve basit bir "doğruluk" meselesi olduğunu düşünmüyorum, bunun yerine ne yapmak istediğinizi başaracak mı. Açıkladığınız yaklaşım, her faktörü temsil etmek için yalnızca bir gösterge kullanacağınız için, belirli faktörlere göre kümelenmeyi sulandırılmış bir şekilde sona erdirecektir. Bu tür her gösterge, altta yatan, gizli faktör için mükemmel bir stand-by olduğunu göstermektedir. Bu bir mesele.

Başka bir sorun da, ben (ve diğer birçok insanın) anlattığı gibi, faktör analizinin kendisinin eksik verilerle nasıl başa çıkılacağı, çıkarılacak faktörlerin sayısı, nasıl çıkarılacağı, nasıl döndürülüp döndürülmeyeceği ve benzeri konuları içeren öznel kararlarla doludur. üzerinde. Bu nedenle, yazılım varsayılan olarak hızlı bir şekilde çıkardığınız faktörlerin ( ima ettiğinizi düşündüğüm gibi ) herhangi bir anlamda "en iyi" olduğu açık değildir.

Hep birlikte, verilerinizin altında yatan temaları karakterize etmenin en iyi yolu olarak tartışmalı faktörlerin sulandırılmış versiyonlarını kullanmış olabilirsiniz. Bu girdi değişkenlerinden kaynaklanan kümelerin en bilgilendirici ya da en belirgin olmasını beklemem.

Başka bir notta, diğer araştırmacıların bulduklarıyla uyuşmayan küme üyeliklerine / profillerine sahip olmanın bir sorun olduğunu düşünmeniz ilginç görünüyor. Bazen bulguları doğrulamamak çok sağlıklı olabilir!


çok teşekkür ederim, şüphelerimi belirtmek için yukarıya daha fazla bilgi ekledim
tr.

0

Sizin durumunuzda neler olabileceği, Faktör Analizinde çıkarılan faktörlerin orijinal değişkenlerden pozitif ve negatif yükleri telafi etmesidir. Bu, kümelenmenin amacı olan farklılaşmayı azaltacaktır.

Çıkarılan her faktörü ikiye ayırabilir misiniz - biri sadece pozitif yüklemelere, diğeri sadece negatif yüklemelere sahip mi?

Her bir faktör için her bir faktör için faktör puanlarını pozitif puanlar ve negatif puanlarla değiştirin ve bu yeni puan kümesinde kümelemeyi deneyin.

Bu sizin için uygunsa lütfen bir satıra bırakın.


0

Hem yüksek değerleri hem de düşük değerleri tarayabilir ve tüm değişkenleri faktörlerde bırakabilirsiniz. Bu şekilde, faktörleri kesmeye gerek yoktur. Faktör 1'i yüklerin işaretlerine göre belirli bir şekilde bölerseniz, Faktör 2'de işaretler oldukça farklı olabilir. Daha sonra Faktör 2'yi Faktör 1'den farklı bir şekilde keser misiniz? Bu kafa karıştırıcı gibi görünüyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.