11 değişkenli bir veri setim var ve verileri azaltmak için PCA (dikey) yapıldı. Konuya ilişkin bilgi birikimimden emin olmak için bileşenlerin sayısına karar vermek, iki ana bileşenin (PC) verileri açıklamak için yeterli olduğunu ve geri kalan bileşenlerin sadece daha az bilgilendirici olduğunu belirttim.
Paralel analiz ile dağ eteğindeki parsel: gözlemlenen özdeğerler (yeşil) ve 100 simülasyona (kırmızı) dayalı benzetilmiş özdeğerler. Scree plot 3 PC önerirken paralel test sadece ilk iki PC'yi önerir.
Gördüğünüz gibi varyansın sadece % 48'i ilk iki PC tarafından yakalanabilir.
İlk 2 PC tarafından yapılan ilk düzlemde gözlemlerin çizilmesi, hiyerarşik aglomerasyon kümeleme (HAC) ve K-ortalama kümeleme kullanan üç farklı kümeyi ortaya çıkarmıştır. Bu 3 kümenin söz konusu sorunla çok ilgili olduğu ortaya çıktı ve diğer bulgularla da tutarlıydı. Bu nedenle, varyansın sadece% 48'inin yakalanması dışında, her şey muazzam derecede iyi idi.
İki yorumcumdan biri: varyansın sadece% 48'i açıklanabileceğinden ve gerekenden daha az olduğu için bu bulgulara çok fazla güvenilemez.
Soru PCA tarafından geçerli olması için ne kadar varyansın yakalanması gerektiği konusunda gerekli bir değer
var mı ? Kullanımdaki alan bilgisi ve metodolojisine bağlı değil mi? Herkes, sadece açıklanan varyansın değerine dayanarak, tüm analizin değerini değerlendirebilir mi?
notlar
- Veriler, Gerçek Zamanlı Kantitatif Polimeraz Zincir Reaksiyonu (RT-qPCR) adı verilen moleküler biyolojide çok hassas bir metodoloji ile ölçülen 11 değişkendir.
- Analizler R kullanılarak yapıldı.
- Mikroarray analizi, kemometri, spectometrik analizler veya benzeri alanlarda gerçek yaşam problemleri üzerinde çalışan kişisel deneyimlerine dayanarak veri analistlerinin cevapları çok takdir edilmektedir.
- Lütfen referanslarla yanıtınızı mümkün olduğunca desteklemeyi düşünün.