PCA, bir k-aracı kümeleme analizine nasıl yardımcı olur?


32

Amaç : Bir kentin yerleşim alanlarını, konut birim yoğunluğu, nüfus yoğunluğu, yeşil alan, konut fiyatı, okul sayısı, okul / sağlık merkezleri / günlük bakım merkezleri gibi sosyal-ekonomik özelliklerine göre gruplandırmak istiyorum. Yerleşim bölgelerinin kaç farklı gruba bölünebileceğini ve bunların benzersiz özelliklerinin neler olduğunu anlamak istiyorum. Bu bilgi şehir planlamasını kolaylaştırabilir.

Bazı örneklere dayanarak (bkz. Bu blog yazısı: PCA ve K-Delta Uçağının Kümelenmesi anlamına gelir ), analizi yapmanın yolunu buldum:

  1. İlk önce PCA analizini yapın.

  2. PCA sonuçlarına göre (örneğin, "dirsek" yöntemini kullanarak veya alternatif olarak toplam varyansın% 80 ila 90'ını açıklayan bileşenlerin sayısını) temel alan benzersiz grupların (kümeler) sayısını belirleyin.

  3. Küme sayısını belirledikten sonra, sınıflandırmayı yapmak için k-aracı kümelemesi uygulayın.

Sorumu: PCA bileşenlerinin sayısı kümelenme analizi ile ilgili gibi görünüyordu. Yani, doğruysa, söyleyin, tüm özelliklerin% 90'ından fazlasını açıklayan 5 PCA bileşeni bulduğumuz takdirde, o zaman k-aracı kümelemesi uygular ve 5 küme elde ederiz. Öyleyse, 5 grup PCA analizindeki 5 bileşene tam olarak karşılık gelecek mi?

Başka bir deyişle, sanırım sorum şu: PCA analizi ve k-aracı kümelenmesi arasındaki bağlantı nedir?

Güncellemeler: Emre, xeon ve Kirill'in girdileri sayesinde. Yani şimdiki cevaplar:

  1. Kümeleme analizinden önce PCA yapmak, özellik çıkarıcı olarak boyutluluk azaltma ve kümeleri görselleştirme / gösterme için de kullanışlıdır.

  2. Kümelemeden sonra PCA yapmak kümeleme algoritmasını doğrulayabilir (referans: Çekirdek temel bileşen analizi ).

  3. PCA bazen kümelemeden önce veri kümesinin boyutunu azaltmak için uygulanır. Ancak, Yeung ve Ruzzo (2000), orijinal değişkenler yerine PC'lerle kümelemenin kümelenme kalitesini mutlaka iyileştirmediğini göstermiştir. Özellikle, ilk birkaç bilgisayar (verideki varyasyonun çoğunu içeren) kümelenme yapısının çoğunu yakalamaz.

    • Yeung, Ka Yee ve Walter L. Ruzzo. Gen ekspresyonu verilerinin kümelenmesinde temel bileşen analizi üzerine ampirik bir çalışma. Teknik rapor, Bilgisayar Bilimi ve Mühendisliği Bölümü, Washington Üniversitesi, 2000. ( pdf )
  4. İki aşamalı kümeleme analizinden önce PCA gerekli görünüyordu . PCA'da tanımlanan faktörler kullanılarak küme analizinin yapıldığı Ibes'e (2015) dayanarak.


1
PCA'yı boyut düşürme amacıyla bir özellik çıkarıcı olarak ve kümeleri görselleştirmek için kullanabilirsiniz.
Emre,

3
Basit başlayın: bir sınıflandırıcıyı doğrudan sahip olduğunuz veriler üzerinde çalıştırın ve performansı not alın. Performanstan memnun değilseniz, PCA'yı deneyin (sıralanan özdeğer arsalarının "dizinde bileşen sayısını seçin) ve k-aracını çalıştırın. Güzel kümeler görürseniz, PCA + sınıflandırıcısının iyi bir iş çıkarması için iyi bir şans var.
Vladislavs Dovgalecs

1
Kümeleme algoritmanızı doğrulamak için kümeleme işleminden sonra PCA'yı da yapabilirsiniz ; her noktayı küme etiketine göre renk kodu. Ayrıca çekirdek PCA'ya bakmayı da öneririm .
Emre,

Aynı anda boyutsallığı azaltma ve kümelemeyi gerçekleştiren yöntemler vardır. Bu yöntemler, kümelerin tanımlanmasını kolaylaştırmak için optimal olarak seçilmiş bir düşük boyutlu gösterimi arar. Örneğin, R'deki clustrd paketine ve ilgili referanslara bakınız.
Nat

Yanıtlar:


16

PCA kümeleme yöntemi değildir. Ancak bazen kümeleri ortaya çıkarmaya yardımcı olur.

Diyelim ki ortalama (sıfır vektör) ile 10 boyutlu Normal dağılımlar ve 3 yön diğerlerinden daha büyük varyansa sahip bazı kovaryans matrisine sahip olduğunu varsayalım . Temel bileşen analizini 3 bileşenle uygulamak size bu talimatları azalan sırayla verir ve 'dirsek' yaklaşımı size seçilen bileşenlerin bu miktarın doğru olduğunu söyler. Ancak yine de bir nokta bulutu olacak (1 küme).010

Diyelim ki 10 1-Boyutlu Normal dağılım araçları , , ... (araçlar neredeyse çizgide kalıyor) ve benzer kovaryans matrisleriyle. PCA'yı yalnızca bir bileşenle (standardizasyon sonrası) uygulamak, 10 kümenin tümünü gözlemleyeceğiniz yönü size verecektir. Açıklanan varyansı ('dirsek' yaklaşımı) analiz ederek, bu bileşeni tanımlamak için 1 bileşenin yeterli olduğunu göreceksiniz.1102101010

Bağlantıda PCA'nın yalnızca verilerle ilgili bazı hipotezler oluşturmak için kullanıldığını gösterin. Küme miktarı grup içindeki kareler toplamının değerine göre (dirsek sapması ile değil) 'dirsek' yaklaşımı ile belirlenir. Temel olarak, farklı kümeler için K-aracı algoritmasını tekrarlar ve bu karelerin toplamını hesaplarsınız. Küme sayısı, veri noktalarının sayısına eşitse, o zaman karelerin toplamı eşittir .0


Girişleriniz için teşekkürler. Ortalama 0 ile 10 boyutlu Normal dağılımların ne olduğunu açıklayabilir misiniz? On giriş özelliği değişkeni mi kastediyorsunuz ve her biri normal bir dağılım izliyor mu?
enaJ

Üzgünüm, çok değişkenli normal dağılımı izleyen rastgele bir değişkenden bahsediyorum, ortalama olarak 10 boyutlu vektör ve 10x10 simetrik matris olan kovaryans matrisi.
Kirill,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.