Benim bir matris, nerede gen sayısı ve hasta sayısıdır. Bu tür verilerle çalışan herkes şunu bilir: her zamankinden daha büyük . Özellik seçimini kullanarak aldım ancak daha makul bir sayıya hala daha büyük .
Hastaların genetik profillerine dayanarak benzerliklerini hesaplamak istiyorum; Öklid mesafesini kullanabilirim, ancak Mahalanobis değişkenler arasındaki korelasyonu açıkladığı için daha uygun görünüyor. Sorun (bu yazıda belirtildiği gibi ) Mahalanobis mesafesinin, özellikle kovaryans matrisinin,. Mahalanobis mesafesini R'de çalıştırdığımda, aldığım hata:
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
Şimdiye kadar bunu çözmeye çalışmak için PCA kullandım ve genleri kullanmak yerine bileşenleri kullanıyorum ve bu Mahalanobis mesafesini hesaplamama izin veriyor gibi görünüyor; 5 bileşen varyansın yaklaşık% 80'ini temsil eder, bu yüzden şimdi.
Sorularım: PCA'yı hastalar arasında Mahalanobis mesafesini anlamlı bir şekilde elde etmek için kullanabilir miyim yoksa uygun değil mi? Aşağıdaki durumlarda çalışan alternatif mesafe metrikleri var mı? ve arasında çok fazla korelasyon var. değişkenler?
PCA
İş gibi değişken azaltma tekniklerinin nasıl verildiği göz önüne alındığında , çıktılarda herhangi bir mesafe metriğinin kullanılıp kullanılamayacağını merak ediyorum.
PCA
Bir eğik dönme gibi bir şey kullanmadıkça, değişken korelasyon kırılabilir. Ayrıca, varyans dağılımınınPCA
benzer hastalar arasındaki Mahalanobis mesafesini nasıl etkileyeceğinden emin değilim .