PCA üzerinden Mahalanobis mesafesi


10

Benim bir n×p matris, nerede p gen sayısı ve nhasta sayısıdır. Bu tür verilerle çalışan herkes şunu bilir:p her zamankinden daha büyük n. Özellik seçimini kullanarak aldımp ancak daha makul bir sayıya p hala daha büyük n.

Hastaların genetik profillerine dayanarak benzerliklerini hesaplamak istiyorum; Öklid mesafesini kullanabilirim, ancak Mahalanobis değişkenler arasındaki korelasyonu açıkladığı için daha uygun görünüyor. Sorun (bu yazıda belirtildiği gibi ) Mahalanobis mesafesinin, özellikle kovaryans matrisinin,n<p. Mahalanobis mesafesini R'de çalıştırdığımda, aldığım hata:

 Error in solve.default(cov, ...) :    system is computationally
 singular: reciprocal condition number = 2.81408e-21

Şimdiye kadar bunu çözmeye çalışmak için PCA kullandım ve genleri kullanmak yerine bileşenleri kullanıyorum ve bu Mahalanobis mesafesini hesaplamama izin veriyor gibi görünüyor; 5 bileşen varyansın yaklaşık% 80'ini temsil eder, bu yüzden şimdin>p.

Sorularım: PCA'yı hastalar arasında Mahalanobis mesafesini anlamlı bir şekilde elde etmek için kullanabilir miyim yoksa uygun değil mi? Aşağıdaki durumlarda çalışan alternatif mesafe metrikleri var mı?n<p ve arasında çok fazla korelasyon var. n değişkenler?


PCABir eğik dönme gibi bir şey kullanmadıkça, değişken korelasyon kırılabilir. Ayrıca, varyans dağılımının PCAbenzer hastalar arasındaki Mahalanobis mesafesini nasıl etkileyeceğinden emin değilim .
Michelle

PCA değişken korelasyonları bozarsa, Mahalanobis mesafesi yerine başka bir mesafe metriği (Pearson mesafesi gibi) kullanabilir miyim?
user4673

Daha fazla tavsiye için yeterli bilmiyorum. Bir başkasının sohbete atlamasını umuyordum. :) PCAİş gibi değişken azaltma tekniklerinin nasıl verildiği göz önüne alındığında , çıktılarda herhangi bir mesafe metriğinin kullanılıp kullanılamayacağını merak ediyorum.
Michelle

Bölgede uzman değilim. Sadece paylaşmak istiyorum, senin küçük bir problemim var ve corpcor paketinden 'cov.shrink' kullandım .
Bruno Sousa

Yanıtlar:


8

Tüm bileşenleri bir PCA'dan tutarsanız - o zaman yeni PCA uzayındaki hastalar arasındaki Öklid mesafeleri, gözlemlenen değişken alandaki Mahalanobis mesafelerine eşit olacaktır. Bazı bileşenleri atlayacaksanız, bu biraz değişecek, ama yine de. Burada, varyansı özdeğer değerine eşit olan birime değil, birim varyans PCA bileşenlerine atıfta bulunuyorum (PCA uygulamanızdan emin değilim).

Demek istediğim, eğer hastalar arasındaki Mahalanobis mesafesini değerlendirmek istiyorsanız, PCA uygulayabilir ve Öklid mesafesini değerlendirebilirsiniz. PCA uygulandıktan sonra Mahalanobis mesafesini değerlendirmek benim için anlamsız görünüyor.


İşte ilişkiyi tartışan kısa bir makale: Brereton, RG Mahalanobis uzaklığı ve temel bileşen puanlarıyla ilişkisi Journal of Chemometrics, Wiley-Blackwell, 2015, 29, 143-145. dx.doi.org/10.1002/cem.2692 . Kemometride PCA'nın varsayılan olarak verilerin saf bir dönüşü olduğuna dikkat edin, bu nedenle Dmitry'nin atıfta bulunduğu birim varyans sürümü değildir .
sbeleites SX ile mutsuz

2

Aşağıdaki makaleye bir göz atın:

Zuber, V., Silva, APD ve Strimmer, K. (2012). Yüksek boyutlu genom çapında birliktelik çalışmalarında eşzamanlı SNP seçimi için yeni bir algoritma . BMC biyoinformatik , 13 (1), 284.

Sorununuzla tam olarak ilgilenir. Yazarlar, yeni bir değişken-önem ölçümlerinin kullanıldığını varsayarlar; bunun yanında, daha önce probleminize uyan açıklayıcı değişkenlerin korelasyon matrisi için cezalandırılmış bir tahmin yöntemi getirmişlerdir. Ayrıca Mahalanobis mesafesini dekor ilişkisi için kullanırlar!

Yöntemler, CRAN'da bulunan R-paket ' bakımı'na dahil edilmiştir.


0

PCA skorları (veya PCA sonuçları) literatürde örnek ve bir dağılım arasındaki Mahalanobis mesafesini hesaplamak için kullanılır. Bir örnek için bu makaleye bakın . "Analiz yöntemleri" bölümünde yazarlar şunları belirtir:

Floresan spektrumlarının (681) veri setleri, korelasyon matrisinin (681 × 681) ana bileşenleri (PC'ler) değerlendirilerek daha düşük bir boyuta (11) indirgenir. PC puanları, orijinal veriler PC'ler boyunca yansıtılarak tahmin edilir. Veri kümeleri arasındaki sınıflandırma, Mahalanobis mesafeleri bilgisayar puanları için hesaplanarak Mahalanobis mesafe modeli kullanılarak yapılmıştır.

Literatürde ve GRAMS IQ kemometri yazılımının yardım menüsünde PCA / Mahalanobis mesafe bazlı ayrımcı analizinin diğer örneklerini gördüm. Bu kombinasyon, değişken sayısı mevcut örnek sayısından fazla olduğunda ve PCA değişken sayısını azalttığında Mahalanobis mesafesi iyi çalışmadığından anlamlıdır.

Tek sınıflı sınıflandırma makinesi öğrenme algoritmaları (örneğin, İzolasyon Ormanı, Tek SınıflıSVM, vb.) PCA / Mahalanobis mesafe tabanlı diskriminant analizine olası alternatiflerdir. Laboratuvarımızda, İzolasyon Ormanı veri ön işleme ile kombine edilerek Yakın Kızılötesi spektrumlarının sınıflandırılmasında iyi sonuçlar elde edilmiştir.

PCA / Mahalanobis mesafe ile bir miktar, ilgili bir not, uç değer ya da yenilik tespiti üzerine, yüksek boyutsal veriler için, genellikle Mahalanobis mesafe hesaplanmasını gerektirir kesme . Bu makalede , kesimin, verilerin normal olarak dağıtıldığı varsayılarak , ki-kare dağılımının kritik değerinin kare kökü olarak hesaplanabileceği önerilmektedir . Bu kritik değer, serbestlik derecesi sayısını ve verilerle ilişkili olasılık değerini gerektirir. Makale, tutulan ana bileşen sayısının kritik değeri hesaplamak için gereken serbestlik derecesine eşit olduğunu öne sürüyor gibi görünüyor çünkü yazarlar hesaplamaları için veri kümesindeki özellik sayısını kullandılar.


Sitemize hoşgeldiniz. Cevabınızda açık olmadığı için sorunun nasıl ele alındığını açıklayabilir misiniz?n<psoruda ortaya çıkan durum nedir?
whuber

N <p olduğunda, p azaltmak için PCA kullanılır. PCA analizinden (nc) tutulan bileşenlerin sayısı genellikle p'den çok daha azdır ve n boyutuna bağlı olarak n'den daha az da olabilir. Bu nedenle, PCA "n by p" problemini "n by nc" problemine değiştirir. NIR spektrumlarını analiz ettiğimiz laboratuvarımızda p, tipik olarak iki binden fazla olan dalga boyu sayısını temsil eder. n, eğitim örneği sayısını temsil eder (~ 20 ila 150). nc tipik olarak 3 ila 11'dir. n> nc olduğunda, PCA / Mahalanobis analizi iyi sonuçlar verir.
Cherif Diallo

1
Sorun PCA'nın yaptığı şey değil. Bu, bu sitedeki diğer konularla da örtüşüyor. Sorun, bu durumda kovaryans matrisinin tekilliğinden dolayı mahalanobis mesafesinin tipik olarak hesaplanamamasıdır: bu, soruda açıklanan durumdur.
whuber

Nazik yorumlarınız için teşekkür ederiz. Görünüşe göre kullanıcının ne istediğine dair farklı yorumlarımız var. Kabul edilen cevap, "hastalar arasında Mahalanobis mesafesini değerlendirmek istiyorsanız, PCA uygulayabilir ve Öklid mesafesini değerlendirebilirsiniz. PCA uygulandıktan sonra Mahalanobis mesafesini değerlendirmek anlamsız bir şey gibi görünüyor ...". Sanırım son cümle, gördüğüm ve alıntıladığım literatürle çelişiyor. Ne düşünüyorsun? Saygılarımla.
Cherif Diallo

1
Anladım. Teşekkürler :)!
Cherif Diallo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.