Daha sonra analiz yapmak için PCA tarafından yakalanan gerekli bir varyans var mı?


15

11 değişkenli bir veri setim var ve verileri azaltmak için PCA (dikey) yapıldı. Konuya ilişkin bilgi birikimimden emin olmak için bileşenlerin sayısına karar vermek, iki ana bileşenin (PC) verileri açıklamak için yeterli olduğunu ve geri kalan bileşenlerin sadece daha az bilgilendirici olduğunu belirttim.

resim açıklamasını buraya girin
Paralel analiz ile dağ eteğindeki parsel: gözlemlenen özdeğerler (yeşil) ve 100 simülasyona (kırmızı) dayalı benzetilmiş özdeğerler. Scree plot 3 PC önerirken paralel test sadece ilk iki PC'yi önerir.

resim açıklamasını buraya girin

Gördüğünüz gibi varyansın sadece % 48'i ilk iki PC tarafından yakalanabilir.

İlk 2 PC tarafından yapılan ilk düzlemde gözlemlerin çizilmesi, hiyerarşik aglomerasyon kümeleme (HAC) ve K-ortalama kümeleme kullanan üç farklı kümeyi ortaya çıkarmıştır. Bu 3 kümenin söz konusu sorunla çok ilgili olduğu ortaya çıktı ve diğer bulgularla da tutarlıydı. Bu nedenle, varyansın sadece% 48'inin yakalanması dışında, her şey muazzam derecede iyi idi.

İki yorumcumdan biri: varyansın sadece% 48'i açıklanabileceğinden ve gerekenden daha az olduğu için bu bulgulara çok fazla güvenilemez.

Soru PCA tarafından geçerli olması için ne kadar varyansın yakalanması gerektiği konusunda gerekli bir değer
var mı ? Kullanımdaki alan bilgisi ve metodolojisine bağlı değil mi? Herkes, sadece açıklanan varyansın değerine dayanarak, tüm analizin değerini değerlendirebilir mi?

notlar

  • Veriler, Gerçek Zamanlı Kantitatif Polimeraz Zincir Reaksiyonu (RT-qPCR) adı verilen moleküler biyolojide çok hassas bir metodoloji ile ölçülen 11 değişkendir.
  • Analizler R kullanılarak yapıldı.
  • Mikroarray analizi, kemometri, spectometrik analizler veya benzeri alanlarda gerçek yaşam problemleri üzerinde çalışan kişisel deneyimlerine dayanarak veri analistlerinin cevapları çok takdir edilmektedir.
  • Lütfen referanslarla yanıtınızı mümkün olduğunca desteklemeyi düşünün.

Özdeğerlerin dağılımı Rastgele Matris Teorisi için oldukça önemlidir. Marcenko-Pastur dağılımı bazen benzer uygulamalar için kullanılır.
John

Yeşil ve turuncu / kahverengimsi çizgiler neyi gösterir? Sadece eksende var.
usεr11852

@ usεr11852, lütfen güncellenmiş açıklamaya bakın.
doktora

Yanıtlar:


8

Özel sorularınız için:

Geçerli olması için PCA tarafından ne kadar varyansın yakalanması gerektiği konusunda gerekli bir değer var mı?

Hayır, (bilgim dahilinde) yoktur. Kullanabileceğiniz tek bir değer olmadığına kesinlikle inanıyorum; yakalanan varyans yüzdesinin sihirli eşiği yok. Cangelosi ve Goriely'nin makalesi: cDNA mikrodizi verilerine uygulama ile temel bileşen analizinde bileşen tutulması , bir çalışmadaki bileşenlerin sayısını tespit etmek için yarım düzine standart başparmak kuralına oldukça hoş bir genel bakış sağlar . (Scree grafiği, Açıklanan toplam varyans oranı, Ortalama özdeğer kuralı, Log-özdeğer şeması, vb.) Temel kurallar olarak bunlardan hiçbirine güçlü bir şekilde güvenmeyeceğim.

Kullanımdaki alan bilgisi ve metodolojisine bağlı değil mi?

İdeal olarak bağımlı olması gerekir, ancak nasıl söylediğinize ve ne demek istediğinize dikkat etmelisiniz.

Örneğin: Akustikte Sadece Fark Edilebilir Fark ( JND ) kavramı vardır . Bir akustik örneği analiz ettiğinizi ve belirli bir bilgisayarın JND eşiğinin çok altında fiziksel ölçekte varyasyona sahip olduğunu varsayın. Hiç kimse bir Akustik uygulaması için bu PC'yi dahil etmeniz gerektiğini kolayca iddia edemez . Gürültüsüz gürültüyü analiz ediyor olacaksınız. Bu bilgisayarı dahil etmek için bazı nedenler olabilir, ancak bu nedenlerin başka şekilde sunulmaması gerekir. RT-qPCR analizi için JND'ye benziyorlar mı?

Benzer şekilde, bir bileşen 9. dereceden Legendre polinomuna benziyorsa ve örneğinizin tek Gauss yumrularından oluştuğuna dair güçlü kanıtlarınız varsa, yine alakasız varyasyonları modellediğinize inanmak için iyi nedenleriniz var. Bu dik varyasyon modları nelerdir? Örneğin, 3. PC'nizde "yanlış" olan şey nedir?

" Bu 3 kümenin söz konusu sorunla çok ilgili olduğu ortaya çıktı " demek aslında güçlü bir argüman değil. Basit bir veri taraması yapabilirsiniz (bu kötü bir şeydir). Başka teknikler de vardır, örn. Oldukça serin olan isomaplar ve yerel olarak doğrusal gömme , neden bunları kullanmıyorsunuz? Neden özellikle PCA'yı seçtiniz?

Bulgularınızın diğer bulgularla tutarlılığı, özellikle de bu bulgular iyi yapılmış olarak kabul edilirse, daha önemlidir. Bunun üzerine daha derine in. Sonuçlarınızın diğer çalışmalardan elde edilen PCA bulguları ile uyumlu olup olmadığını görmeye çalışın.

Herkes, sadece açıklanan varyansın değerine dayanarak, tüm analizin değerini değerlendirebilir mi?

Genel olarak bunu yapmamak gerekir. Değerlendiricinizin bir piç veya bunun gibi bir şey olduğunu düşünmeyin; % 48 gerçekten makul gerekçeler göstermeden elde tutmak için küçük bir yüzdedir.


Cevabınız için teşekkür ederim. JND'de olduğu gibi RT-qPCR hakkında çok özel bir şey yoktur. Aslında, RT-qPCR sadece gen değişkenlerini kendimiz ölçtüğümüz tekniktir. Muhtemelen 11'in hepsinin lineer kombinasyonundan yapılmış yeni değişkenler olan PC'leri kastediyorsunuz. Diğer tanımlayıcı değişkenler göz önüne alındığında, ilk 2 PC'nin bağışıklık tepkisinin hücreleri ile ilişkili olduğu ortaya çıkarken, 3. PC değil. Aksi takdirde 3. PC'de yanlış bir şey yoktur.
doktora

Veri tarama tekniklerine bir göz atacağım ve bunlar hakkında daha fazla bilgi edineceğim. Ancak bunun herhangi bir R-paketi tarafından uygulanıp uygulanmadığını tesadüfen biliyor musunuz?
doktora

1
@doctorate: Tüm fikir veri taramasından kaçınmaktır. Üzgünüm ama açıkça test için herhangi bir paket bilmiyorum.
usεr11852

1
+1, ancak veri tarama hakkındaki cümleniz ("basit veri taraması yapabilirsiniz") çok açık değildir ve belki de bu nedenle @doctorate karıştırılmıştır. Aslında, tüm paragrafın çok net olmadığını görüyorum: Isomap ve LLE'nin veri tarama ile ne ilgisi var? veri tarama iyi mi kötü mü? bağlandığınız wiki makalesi, bunu iyi yapmak Belki bu paragrafta biraz daha açık olacak şekilde düzenleyebilirsiniz?
amip diyor Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.