Boole özelliklerinin küçük bir örnek kümesi için PCA ve spektral kümeleme arasındaki fark


10

50 örneklik bir veri setim var. Her örnek 11 (muhtemelen ilişkili) Boole özelliğinden oluşur. Bu örnekleri 2B çizimde nasıl görselleştirebilir ve 50 örnek arasında küme / gruplama olup olmadığını incelemek isterim.

Aşağıdaki iki yaklaşımı denedim:

(a) PCA'yı 50x11 matrisinde çalıştırın ve ilk iki temel bileşeni seçin. Verileri 2D çizim üzerine yansıtın ve kümeleri tanımlamak için basit K-araçları çalıştırın.

(b) 50x50 (kosinüs) benzerlik matrisi oluşturun. Run spektral kümeleme boyut indirgeme için tekrar K-vasıtasıyla izledi.

Doğrudan PCA yapmak ile benzerlik matrisinin özdeğerlerini kullanmak arasındaki kavramsal fark nedir? Biri diğerinden daha iyi mi?

Ayrıca, bu tür verileri 2B olarak görselleştirmenin daha iyi yolları var mı? Örneklem boyutum her zaman 50 ile sınırlı olduğundan ve özellik setim her zaman 10-15 aralığında olduğundan, anında birden fazla yaklaşımı denemeye ve en iyisini seçmeye hazırım.

İlgili soru: Örnekleri kümeleme veya PCA ile gruplama

Yanıtlar:


10

Doğrudan PCA yapmak ile benzerlik matrisinin özdeğerlerini kullanmak arasındaki kavramsal fark nedir?

PCA bir kovaryans veya korelasyon matrisi üzerinde yapılır, ancak spektral kümeleme herhangi bir benzerlik matrisini alabilir (örneğin kosinüs benzerliği ile inşa edilmiş) ve orada kümeler bulabilir.

İkincisi, spektral kümeleme algoritmaları grafik bölümlemeye dayanır (genellikle grafiğin en iyi kesimlerini bulmakla ilgilidir), PCA varyansın çoğuna sahip yönleri bulur. Her iki durumda da özvektörleri bulmamıza rağmen, kavramsal yaklaşımlar farklıdır.

Ve son olarak, PCA ve spektral kümelemenin farklı amaçlara hizmet ettiğini görüyorum: biri boyutsallık azaltma tekniğidir, diğeri daha çok kümelemeye bir yaklaşımdır (ancak boyutsallık azaltımı yoluyla yapılır)


5

Boolean (yani, iki sınıfla kategorik) özellikler için, PCA'yı kullanmanın iyi bir alternatifi, sadece PCA'nın kategorik değişkenlere genişletilmesi olan Çoklu Yazışma Analizi'nin (MCA) kullanılmasından oluşur (ilgili konuya bakın ). MCA hakkında arka plan için, yazılar Husson ve ark. (2010) veya Abdi ve Valentin (2007) . MCA gerçekleştirmek için mükemmel bir R paketi FactoMineR'dir . Çok içgörüsel olan gözlemlerin temel bileşenler üzerindeki yüklemelerinin iki boyutlu haritalarını çizmek için araçlar sağlar.

Aşağıda, geçmiş araştırma projelerimden birinden iki harita örneği verilmiştir (ggplot2 ile çizilmiştir). Sadece 60 gözlemim vardı ve bu iyi sonuçlar verdi. İlk harita PC1-PC2 uzayındaki gözlemleri, PC3-PC4 uzayındaki ikinci haritayı temsil eder ... Değişkenler harita üzerinde de temsil edilir ve boyutların anlamının yorumlanmasına yardımcı olur. Bu haritaların birkaçından içgörü toplamak, verilerinizde neler olduğuna dair size güzel bir resim verebilir.

resim açıklamasını buraya girin

Yukarıda bağlantılı web sitesinde ayrıca, Temel Bileşenler Üzerinde Hiyerarşik Kümeleme anlamına gelen ve ilginizi çekebilecek yeni bir prosedür olan HCPC hakkında bilgi bulacaksınız. Temel olarak, bu yöntem aşağıdaki gibi çalışır:

  • bir MCA gerçekleştirin,
  • ilk boyutlarını koruyun (burada , orijinal özellik ). Bu adım, biraz gürültüyü ortadan kaldırması ve dolayısıyla daha kararlı bir kümelenmeye izin vermesi açısından yararlıdır,kk<pp
  • tutulan bilgisayarların alanında aglomeratif (aşağıdan yukarıya) hiyerarşik bir kümeleme gerçekleştirin. PC alanındaki gözlemlerin projeksiyonlarının koordinatlarını kullandığınızdan (gerçek sayılar), Ward'ın bağlantı kriterini (küme içi varyansındaki minimum artış) Öklid mesafesini kullanabilirsiniz. Dendogramı istediğiniz yükseklikte kesebilir veya bazı sezgisel taramaya dayanırsanız R fonksiyonunun kesilmesine izin verebilirsiniz,
  • (isteğe bağlı) bir K-ortalama kümeleme gerçekleştirerek kümeleri stabilize eder. İlk yapılandırma, önceki adımda bulunan kümelerin merkezleri tarafından verilir.

Ardından, kümeleri araştırmanın birçok yolu vardır (çoğu temsili özellik, çoğu temsili birey, vb.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.