Temel bileşen analizi ile yazışma analizinin kullanılması


9

İntertidal topluluklarla ilgili bir veri setini analiz ediyorum. Veriler kuadratlarda yüzde örtüsü (deniz yosunu, kıskaç, midye, vb.) Tür sayısı açısından yazışma analizi (CA) ve doğrusal çevresel (tür değil) eğilimler için daha yararlı bir şey olarak temel bileşen analizi (PCA) hakkında düşünmeye alışkınım . PCA veya CA'nın yüzde kapak için daha uygun olup olmadığını anlamak için hiç şansım olmadı (kağıt bulamıyorum) ve% 100'e kadar sınırlanmış bir şeyin nasıl dağıtılacağından bile emin değilim ?

İlk tespit edilen yazışma analizi (DCA) ekseninin uzunluğu 2'den büyükse, CA'nın kullanılması gerektiğini güvenli bir şekilde kabul edebileceğinize dair kaba kılavuzlara aşinayım. DCA ekseni 1'in uzunluğu 2.17 idi, ki bu da yararlı bulamıyorum.


3
Hem PCA hem de CA ilişkilidir ve her ikisi de SVD algoritmasına dayalı olabilir. Temel biçimsel fark (@ Gavin'ın başka türlü derin cevabında belirtilmemiş), PCA'nın satırları "vakalar" olarak ele alan sadece sütunlar arasındaki ilişkileri (örneğin kovaryans matrisini ayrıştırarak) ayrıştırmasıdır; CA sütunları ve satırları aynı anda ayrıştırır ve çapraz tablolama "kategorileri" olarak simetrik olarak ele alır. Bu nedenle CA tarafından bırakılan biplot ve PCA'dan sonra çizilebilecek yarı-biplot (yüklemeler + skorlar) kavramsal olarak oldukça farklı bilgiler verir.
ttnphns

Yanıtlar:


9

PCA, CA'nın göreli değerler üzerinde çalıştığı değerlerde çalışır. Her ikisi de, bahsettiğiniz türdeki göreceli bolluk verileri için iyidir (bir büyük uyarı ile daha sonra bakın). % Verilerle zaten göreceli bir ölçüme sahipsiniz, ancak yine de farklılıklar olacaktır. Kendine sor

  • bol tür / taksondaki (yani% büyük kapaklı olanlar) kalıbı vurgulamak ister misiniz, yoksa
  • göreli kompozisyon kalıplarına odaklanmak ister misin?

Eğer eski ise PCA kullanın. İkincisi CA kullanıyorsa. İki sorudan kastettiğim şu:

A = {50, 20, 10}
B = { 5,  2,  1}

farklı ya da aynı olarak kabul edilir mi? Ave Biki örnektir ve değerler gösterilen üç taksonun% 'si kapsamıdır. (Bu örnek zayıf bir şekilde ortaya çıktı, çıplak zemin olduğunu varsayın! ;-) PCA, kullanılan Öklid mesafesi nedeniyle bunları çok farklı olarak değerlendirecektir, ancak CA, aynı göreceli profile sahip olduğu için bu iki örneği çok benzer olarak değerlendirecektir.

Buradaki büyük uyarı, verilerin kapalı kompozisyon niteliğidir. 1'e (% 100) karşılık gelen birkaç grubunuz (örneğin Kum, Silt, Kil) varsa, bu yaklaşımlardan hiçbiri doğru değildir ve kapalı kompozisyon için tasarlanmış Aitchison'un Günlük Oranı PCA ile daha uygun bir analize geçebilirsiniz. veri. (Bunu yapmak için IIRC, satır ve sütunlara göre ortalamanız ve verileri günlüğe dönüştürmeniz gerekir.) Başka yaklaşımlar da vardır. R kullanırsanız, yararlı olabilecek bir kitap R ile Bileşik Verileri Analiz etmektir .


Her zamanki gibi, gerçekten mükemmel bir cevap Gavin. Teşekkür ederim! Bu çok şey açıklığa kavuşuyor, o zaman PCA kullanacağım. İntertidal topluluğun 3 boyutlu olduğu düşünüldüğünde, organizmaların birbirinin üzerine büyüdüğü bazı durumlarda kapak yüzdesi aslında% 100 olmuştur. Bu, bahsettiğiniz kapalı kompozisyon formu değil, değil mi?
HFBrowning

Hayır, bahsettiği şey bu değil. Kapalı olarak, üç tür A, B, C ile% C =% 100 -% B -% A
Pertinax'ın 16

Peki ya DCA?
Darwin PC

DCA, CA'nın dağınık bir sürümüdür, bu nedenle aynı genel ilkeler geçerlidir. DCA, verilerin garip bir şekilde işkence yapmasını sağlıyor ve bugün araç kutumuzda bir yöntem olarak bununla uğraşmamız gerektiğini düşünmüyorum, ancak başkalarının görüşleri buna göre değişecektir.
Gavin Simpson
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.