Ana hedef yalnızca birkaç bileşen tahmin etmek olduğunda PCA veya FA için minimum örneklem büyüklüğü?


27

gözlemleri ve değişkenleri (boyutlar) olan bir veri kümem varsa ve genellikle küçüktür ( ) ve küçükten ( ) belki de daha büyük olabilir ( ).p , n , n = 12 - 16 p s = 4 - 10 p = 30 - 50npnn=1216pp=410p=3050

Temel bileşen analizi (PCA) veya faktör analizi (FA) yapmak için daha büyük olması gerektiğini öğrendiğimi hatırlıyorum , ancak verilerimde böyle olmayabilir. Benim amaçlarıma göre, PC2'den sonraki temel bileşenlerle nadiren ilgileniyorum.pnp

Sorular:

  1. PCA kullanmaya uygun olduğunda ve olmadığında minimum örneklem büyüklüğü için temel kurallar nelerdir?
  2. veya olsa bile ilk birkaç bilgisayarı kullanmanın bir mı?n < pn=pn<p
  3. Bu konuda referans var mı?
  4. Asıl amacınızın PC1'i ve muhtemelen PC2'yi kullanması önemli mi:

    • basitçe grafiksel olarak veya
    • sentetik değişken olarak regresyonda kullanılır?

Faktör analizi ile ilgili bu tür kılavuzları okuduğumu hatırlıyorum. Bununla veya sadece PCA ile mi ilgileniyorsunuz? Ayrıca, cevap, uğraştığınız verinin türüne bağlı olabilir, aklınızda belirli bir uygulama alanı var mı?
Gala

1
Aşağıdaki yorum ve referanslar için teşekkürler Gael. Şimdi FA ve PCA arasındaki farkları bilmeye ihtiyacım var. :)
Patrick

3
Bu soru bu sitede geniş çapta ele alınmıştır, bkz. Stats.stackexchange.com/questions/1576/… ve stats.stackexchange.com/questions/612/…
Gala

Yanıtlar:


21

Aslında , örnek büyüklüğünüzün "yeterince büyük" olup olmadığını ölçebilirsiniz . Küçük örneklem büyüklüğünün bir belirtisi çok küçüktür.

Önyükleme veya çaprazlama PCA'nızı doğrular: bu teknikler, numunenizin küçük bir kısmını silerek / değiştirerek veri setinizi rahatsız eder ve ardından rahatsız edici veri setlerinin her biri için "yedek modeller" oluşturur. Taşıyıcı modeller yeterince benzerse (= sabit), iyi. PCA'nın çözümünün benzersiz olmadığını dikkate almanız gerekebilir: PC'ler çevirebilir (hem bir puanı hem de ilgili ana bileşeni çarpın ). Mümkün olduğu kadar benzer PC modelleri elde etmek için Procrustes rotasyonu kullanmak da isteyebilirsiniz.1


Teşekkürler kabileler. Önyükleme işleminin, 16 kadar düşük n ile aşırı bilgilendirici olacağını düşünüyor musunuz? Anlamak için, birçok PCA çalıştırarak göreceli bir istikrar arayışı içerisindeydim, her siteyi bir çalışma dışı bıraktım.
Patrick

Bu durumda, bir örneği silerek rahatsız olan 16 modelin hepsine (hatta 2 örnek bırakan 120 modelin hepsine bile) kesinlikle bakmak mümkündür. Küçük ile muhtemelen böyle bir sistematik cv benzeri bir yaklaşım için giderim. n
cbeleites, Monica

23

Faktör analizi için (temel bileşen analizi değil), gözlem sayısı hakkındaki eski kuralların bir kısmını sorgulayan bir literatür var. Geleneksel öneriler - en azından psikometri içinde - değişken başına en az gözlem yapmak ( her zaman ila arasında ), bu nedenle herhangi bir durumda .x 5 20 n pxx520np

Birçok referans içeren oldukça kapsamlı bir genel bakış http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis adresinde bulunabilir.

Bununla birlikte, son simülasyon çalışmalarından elde edilen ana paket mesajı muhtemelen sonuçların kalitesinin (topluluklara bağlı olarak, faktörlerin sayısına veya değişkenlerin faktörlere oranına vb. Bağlı olarak) çok fazla değişiklik göstereceği şeklinde olacaktır. Değişken-gözlem oranı, gerekli gözlem sayısına karar vermenin iyi bir yolu değildir. Koşullar iyi değilse, eski kuralların önerdiğinden çok daha az gözlemle kurtulabilirsiniz ancak en muhafazakar kurallar bile bazı durumlarda çok iyimserdir. Örneğin, Preacher ve MacCallum (2002), son derece küçük örneklem büyüklüğü ve ile iyi sonuçlar elde etti, ancak Mundfrom, Shaw & Ke (2005), olan bir örneklem büyüklüğü buldu.n > 100 pp>nn>100pgerekliydi. Ayrıca, altta yatan faktörlerin sayısı aynı kalırsa, daha fazla değişkenin (gözlemlerin değişkenlere oranına dayanan kılavuzların ima ettiği şekilde daha az olmamakla birlikte) küçük gözlem örnekleriyle daha iyi sonuçlara yol açabileceğini de buldular .

İlgili referanslar:

  • Mundfrom, DJ, Shaw, DG ve Ke, TL (2005). Faktör analizi yapmak için minimum örneklem büyüklüğü önerileri. Uluslararası Test Dergisi, 5 (2), 159-168.
  • Vaiz, KJ ve MacCallum, RC (2002). Davranış genetiği araştırmalarında açımlayıcı faktör analizi: Küçük örneklem büyüklükleri ile faktör geri kazanımı. Davranış Genetiği, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D. ve Wieringa, PA (2009). Küçük örneklem büyüklüğü ile açımlayıcı faktör analizi. Çok Değişkenli Davranış Araştırması, 44 (2), 147-181.

5
(+1) Simülasyon ve gerçek veri setlerini kullanan ve N / p genel kuralının pratikte pek iyi performans göstermediğini ve EFA'da istikrarlı ve doğru bir çözüm elde etmek için gereken örnek boyutlarını sağlayan bir başka makale. çeşitli kalite kriterlerinin -controlling - faktörlerin sayısı ve psikiyatrik ölçekte öğelerin sayısı (ve isteğe bağlı olarak Feldt formülü göre Cronbach alfa% 95 CI yarı-genişlik) bir fonksiyonu olarak: için örnek boyut gereksinimlerini psikiyatrik ölçeklerin iç doğrulaması Int J Yöntem Psikiyatri Arş. 2011 Dec; 20 (4): 235-49.
chl

1

MVA eşitsizliklerinin arkasındaki fikir basit: PCA değişkenlerin korelasyon matrisini tahmin etmeye eşdeğerdir. verilerinden (simetrik matris) katsayılarını tahmin etmeye çalışıyorsunuz . (Bu yüzden n >> p olmalıdır.) nppp12np

Eşdeğerlik bu şekilde görülebilir: her PCA adımı bir optimizasyon problemidir. En çok sapmayı ifade eden yön bulmaya çalışıyoruz. yani:

max(aiTΣai)

Burada kovaryans matrisidir.σ

kısıtlamalar altında:

aiTai=1
(normalleştirme)

j < i

aiTaj=0
( , önceki bileşenlerle ortogonallık)j<i

Bu sorunların çözümü açıkça özdeğerleriyle ilişkili özvektörleridir. Tam formülasyonu hatırlamadığımı itiraf etmeliyim, ancak özvektörler sigma'nın katsayılarına bağlı . Değişkenlerin Modulo normalizasyonu, kovaryans matrisi ve korelasyon matrisi aynı şeydir.σΣσ

N = p almak, sadece iki veri içeren bir değeri tahmin etmek için aşağı yukarı eşdeğerdir ... güvenilir değildir.

Başparmak kuralları yoktur, sadece değerinden bir değer tahmin etmekle aynı şey olduğunu unutmayın .2np


Bir korelasyon matrisini tahmin etmede PCA'nın “eşdeğer” olduğu duygusuyla ilgili daha spesifik olabilir misiniz? Ben sonra benim PCA durdurmak varsayalım başlıca bileşenleri. Bu , hepsi biraz daha az olabilen parametrelerinden daha az toplam olan, özdeğerleri ve bağımsız özvektör katsayılarını tahmin etmeyi gerektirir. . k ( p - 1 ) + ( p - 2 ) + + ( p - k ) p k p ( p - 1 ) / 2kk(p1)+(p2)++(pk)pkp(p1)/2
whuber

Mesele şu ki özvektörlerin (pk) katsayılarını matrisin p (p-1) / 2 katsayılarından hesaplıyorsunuz. Rastgele bir matris için, özvektörleri / özdeğerleri hesaplayan bazı katsayıları "atlamanın" bir yolu olduğunu sanmıyorum.
lcrmorin

Tabii ki: olağan algoritmalar özdeğerleri ve özvektörleri her seferinde bir defada bulur, en büyük özdeğerin altına inmesini sağlar. Ayrıca, bu bir hesaplama meselesi değil, tahmin edilen değerlerin sayılmasından biri - cevabınızı yanlış anlamadığım sürece?
whuber

1

Umarım bu yardımcı olabilir:

FA ve PCA için

'' Bu bölümde açıklanan yöntemler kararlı çözümler elde etmek için büyük örnekler gerektirir. Yeterli bir örneklem büyüklüğünü oluşturan şey biraz karmaşıktır. Son zamanlara kadar, analistler “faktör analizi değişkenlerin sayısının 5 ila 10 katı gerektiriyor” gibi temel kurallar kullandılar. Son çalışmalar, gerekli örneklem büyüklüğünün faktör sayısına, her faktörle ilişkili değişken sayısına ve nasıl olduğuna bağlı olduğunu ortaya koydu. iyi bir dizi faktör değişkenlerdeki varyansı açıklamaktadır (Bandalos ve Boehm-Kaufman, 2009). Bir uzuv üzerinde çıkacağım ve birkaç yüz gözleminiz varsa, muhtemelen güvende olduğunuzu söyleyeceğim. ''

Referans:

Bandalos, DL ve MR Boehm-Kaufman. 2009. Keşfedici Faktör Analizinde Dört Genel Kavram Yanılgısı.” CE Lance ve RJ Vandenberg tarafından düzenlenen İstatistiksel ve Metodolojik Mit ve Şehir Efsanelerinde, 61-87. New York: Routledge.

Robert I. Kabacoff tarafından "Eylemdeki R" den, neredeyse tüm istatistiksel testleri kapsayan iyi tavsiyeler içeren çok bilgilendirici bir kitap.


2
İkincil veya üçüncül bir kaynağa dayanarak daha önce yapılmış bir kitabı takarak ve bazı noktaları yeniden şekillendirdiğiniz görülüyor. Bu çok kullanışlı görünmüyor. Bandalos ve Boehm-Kaufman, 2009 için en azından tam referansı verebilir misiniz?
Gala,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.