PCA / FA'dan elde edilen birkaç ana bileşenden veya faktörlerden tek bir dizin oluşturma

Araştırmam için gerekli bir dizin oluşturmak için Temel Bileşen Analizi'ni (PCA) kullanıyorum. Benim sorum PCA üzerinden hesaplanan tutulan temel bileşenleri kullanarak nasıl tek bir dizin oluşturmak gerekir.

Örneğin, PCA kullandıktan sonra 3 temel bileşeni tutmaya karar verdim ve bu 3 temel bileşen için puanları hesapladım. Her 3 katılımcı için bu 3 puandan tek bir indeks oluşturmanın uygun yolları nelerdir?

Bileşik bir değere sahip olmak için 3 hesaplanmış skoru eklemek önemli mi?
Ya da böyle bir değere sahip olmak için 3 puan ortalama?
Yoksa sadece ilk temel bileşeni (en güçlü) tutmalı ve puanını dizin olarak mı kullanmalıyım?

Alternatif olarak, Faktör Analizi (FA) kullanılabilir, ancak aynı soru kalır: birkaç faktör puanına dayalı tek bir dizin nasıl oluşturulur?

— user179313
kaynak

PC'ler tanım gereği ilintisizdir. Bu nedenle, değişken olarak birbirlerinin bilgilerini hiçbir şekilde çoğaltmazlar. Bu, onlardan tek bir değer (bileşik değişken) oluşturmak için hiçbir neden olmadığı anlamına gelir. Ya da, bazen onları çoğaltmak ilgi çekici olabilir, ama özetlemek ya da ortalamak değil.

— ttnphns

@Ttnphns ile aynı fikirdeyim: ilk iki seçeneğiniz pek mantıklı değil ve üç bilgisayarı tek bir dizinde "birleştirme" çabası yanlış yönlendirilmiş görünüyor. 1. PC'nizi endeksiniz olarak alın veya tamamen farklı bir yaklaşım kullanın.

— amip diyor Reinstate Monica

@ttnphns ilişkisiz, bağımsız değil. Bilgisayarlar arasında yinelenen gereksiz bilgiler olabilir, sadece doğrusal olarak değil.

— varsayımlar

@amoeba Hatırlatma için teşekkürler. Etiketin sürümlerini ve alıntılarını stats.stackexchange.com/tags/valuation/info adresinden hazırladım .

— whuber

@ttnphns Yukarıdaki yorumunuza dayanarak burada bir yanıt göndermeyi düşünür müsünüz? Burada bir ödül kazandım, çünkü bu sorunun varyasyonları görünmeye devam ediyor ve hiçbir yerde tatmin edici bir cevap olmadığı için bunları kopya olarak kapatamayız.

— amip: Reinstate Monica

Yanıtlar:

Bu cevap kasıtlı olarak matematiksel değildir ve her katılımcı için bir "bileşik endeks" puanı elde etmek için farklı faktörlerin faktör puanlarını toplayıp toplayamayacağını / ortalamasını isteyip istemediğini araştıran istatistikçi olmayan psikoloğa (örneğin) yöneliktir.

Bazı değişkenlerin puanlarının toplanması veya ortalamasının alınması, değişkenlerin aynı boyuta ait olduğunu ve uygulanabilir ölçüler olduğunu varsayar. (Soruda, "değişkenler" , değişkenlere örnek oldukları için hiçbir şeyi değiştirmeyen bileşen veya faktör puanlarıdır .)

Gerçekten (Şekil 1), yanıtlayan 1 ve 2 eşit derecede atipik (yani 0, veri merkezinin lokusu veya ölçek orijininden sapmış) olarak görülebilir, her ikisi de aynı ortalama puana sahiptir ve . Değer yapı için atipiklik ölçüde gibi geçerli olan bunun için olduğu gibi mükemmel ve $(.8+.8)/2=.8$ $(1.2+.4)/2=.8$ $.8$ $X+Y$ $X$ $Y$ ayrı ayrı. Aynı bir boyutu temsil eden ilişkili değişkenler, aynı karakteristiğin tekrarlanan ölçümleri ve rastgele hata olarak puanlarının farkı veya denkliği olarak görülebilir. Rastgele hataların birbirini iptal beklenmektedir çünkü bu nedenle toplamına warranded edilir / puanları ortalama spe .

Eğer o kadar değil ve aynı "boyut" görülecek değil korelatı yapmak yeterli. Bunun için, bir yanıtlayıcının sapması / atipikliği, başlangıç noktasından Öklid mesafesiyle taşınır (Şekil 2). $X$ $Y$

Bu mesafe katılımcı 1 ve 2 için farklıdır: ve $\sqrt{.8^2+.8^2} \approx 1.13$ $\sqrt{1.2^2+.4^2} \approx 1.26$ $X=.8$ $Y=-.8$ $X=0$ $Y=0$

$w_XX_i+w_YY_i$ $X$ $Y$ $w_X$ $w_Y$ kusurun nedeni olan tüm katılımcılar i için sabit olarak ayarlanır. Bir yanıtlayıcının iki değişkenli sapmasını - bir daire veya elips şeklinde - ilişkilendirmek için puanlarına bağlı ağırlıklar kullanılmalıdır; Daha önce ele Öklid mesafe olduğu aslında değerlerine bağlıdır ağırlıkları ile bu ağırlıklı toplamı örneğidir. Ve eğer değişkenlerin eşit varyanslar dahil için (söz konusu olduğu gibi, örneğin ana bileşen) Önemli olan, ağırlıklı Öklid mesafe, Şekil bulunabilir geçeceği mesafeyi hesaplayabilir. 2 daire uzatılmış olur sonra.

$|.8|+|.8|=1.6$ $|1.2|+|.4|=1.6$ $X=.8$ $Y=-.8$ $1.6$ $0$

("Manhatten mesafesini seçtiğimden, tüm veri puanlarını pozitif yapacağım ve toplamı (veya ortalama) iyi vicdanla hesaplayacağım" diye haykırmayı düşünebilirsiniz, ama lütfen düşünün - menşei serbestçe taşıma hakkınız var mı? Örneğin, veriler ortalamanın ortalandığı koşulda çıkarılır, bu da mantıklıdır.Diğer menşei, diğer skorlara sahip diğer bileşenleri / faktörleri üretebilir Hayır, çoğu zaman orijinle oynamamanız gerekebilir - yer "tipik yanıtlayan" veya "sıfır düzey özellik" - oynamaktan hoşlandığınız gibi.)

Özetlemek gerekirse , eğer kompozit yapının amacı cevaplayıcı pozisyonlarını bazı "sıfır" veya tipik lokusa göreceli olarak yansıtmak, ancak değişkenler neredeyse hiç korelasyon göstermiyorsa, ortalama (veya toplam) olmayan bir tür uzamsal mesafe veya ağırlıksız, seçilmelidir.

Aynı şeyi ölçmek için (ilişkisiz) değişkenleri alternatif modlar olarak görmeye karar verirseniz ortalama (toplam) anlamlı olacaktır . Bu şekilde değişkenlerin farklı doğasını kasten görmezden gelirsiniz. Başka bir deyişle, bilinçli olarak Şekil 2'yi Şekil 1 lehine bırakırsınız: değişkenlerin bağımsız olduğunu "unutursunuz". Sonra - toplam veya ortalama yapın. Örneğin, "maddi refah" ve "duygusal refah" puanlarının ortalaması, benzer şekilde "mekansal IQ" ve "sözel IQ" puanlarının ortalaması alınabilir. Bu tür tamamen pragmatik, onaylanmamış satistik olarak kompozitlere pil endeksleri denir (korelasyonları göz ardı ettiğimiz ilişkili olmayan şeyleri ölçen testler veya anketler topluluğu "pil" olarak adlandırılır). Pil endeksleri sadece skorların aynı yöne sahip olması durumunda mantıklıdır (hem zenginlik hem de duygusal sağlık gibi "daha iyi" kutup olarak görülür). Dar ad hoc ayarların dışındaki kullanışlılıkları sınırlıdır.

Değişkenler ilişkiler arasındaysa - birbirleriyle eşleri, alternatifleri olarak görmek için yeterince güçlü değildirler, genellikle değerlerini ağırlıklı bir şekilde toplarız (veya ortalamaları). O zaman bu ağırlıklar dikkatle tasarlanmalı ve bu ya da bu şekilde korelasyonları yansıtmalıdır. Örneğin bileşen / faktör puanlarını özel olarak hesapladığımız PCA veya faktör analizi (FA) ile yaptığımız budur . Değişkenleriniz zaten bileşen veya faktör puanlarıysa (buradaki OP sorusunun söylediği gibi) ve ilişkilendirildiyse (eğik dönüş nedeniyle), onları (veya doğrudan yükleme matrisini) bulmak için ikinci derece PCA / FA'ya tabi tutabilirsiniz. ağırlıklar ve sizin için "bileşik endeksi" hizmet verecek ikinci dereceden PC / faktör olsun.

Ancak, bileşen / faktör puanlarınız ilişkisiz veya zayıf bir korelasyona sahipse, bunları açık bir şekilde özetlememizin veya çıkarım ağırlıklarıyla istatistiksel bir neden yoktur . Bunun yerine biraz mesafe kullanın. Mesafe ile ilgili sorun her zaman olumlu olmasıdır: bir yanıtlayıcının ne kadar atipik olduğunu söyleyebilir, ancak "yukarıda" veya "aşağıda" olup olmadığını söyleyemezsiniz. Ancak bu, çok özellikli alandan tek bir dizin talep etmek için ödemeniz gereken fiyattır. Böyle bir alanda hem sapma hem de oturum açmak istiyorsanız, çok aşırı olduğunuzu söyleyebilirim.

Son noktada, OP, "endeks" için tek vekil olarak, varyansına göre bu en güçlü değişkenin sadece bir puanını almanın doğru olup olmadığını sorar. Bu bilgisayarın diğer bilgisayarlardan çok daha güçlü olması mantıklıdır . O zaman "çok daha güçlü ise, neden sadece onu ayıklama / tutma?" Diye sorabilir.

— ttnphns
kaynak

PCA'yı kullanarak zaman dizisinden http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf adresine bağlantı kullanarak bileşik dizin oluşturma .

Sayfa 19'daki makalede, yazarlar, her bir faktör tarafından açıklanan varyasyonun seçilen faktörler tarafından açıklanan toplam varyasyona oranını kullanarak Standartlaştırılmamış Endeks (NSI) oluşturmanın bir yolundan bahsetmektedir. Bu NSI daha sonra normalleştirildi.

— SACHIN GARG
kaynak

19. sayfadaki bu bölüm, yukarıdaki yorumlarda amip ve ben tarafından uyarılan şeyi tam olarak şüpheli, sorunlu bir şekilde ekliyor. İlişkisiz değişkenlerin bir endekste toplanmasının istatistiki bir anlamı yoktur.

— ttnphns

Bazen ilişkisiz olan ve farklı şeyleri ölçen yapılar / ölçekler / testler ekleriz. Bu pil endeksi olacaktır (oldukça farklı / ilişkisiz olarak kabul edilen testlere "pil" denir). Bir pil endeksi , önceki yorumda belirtildiği gibi, neredeyse istatistiksel bir anlama sahip olmamasına rağmen, yerel bir pragmatik anlamda olabilir .

— ttnphns

ayrıca bkz . soru istatistikleri . stackexchange.com/q/236786/3277 .

— ttnphns

-1 yazılanlar nedeniyle.

— amoeba, Reinstate Monica