Amaç : Bir kentin yerleşim alanlarını, konut birim yoğunluğu, nüfus yoğunluğu, yeşil alan, konut fiyatı, okul sayısı, okul / sağlık merkezleri / günlük bakım merkezleri gibi sosyal-ekonomik özelliklerine göre gruplandırmak istiyorum. Yerleşim bölgelerinin kaç farklı gruba bölünebileceğini ve bunların benzersiz özelliklerinin neler olduğunu anlamak istiyorum. Bu bilgi şehir planlamasını kolaylaştırabilir.
Bazı örneklere dayanarak (bkz. Bu blog yazısı: PCA ve K-Delta Uçağının Kümelenmesi anlamına gelir ), analizi yapmanın yolunu buldum:
İlk önce PCA analizini yapın.
PCA sonuçlarına göre (örneğin, "dirsek" yöntemini kullanarak veya alternatif olarak toplam varyansın% 80 ila 90'ını açıklayan bileşenlerin sayısını) temel alan benzersiz grupların (kümeler) sayısını belirleyin.
Küme sayısını belirledikten sonra, sınıflandırmayı yapmak için k-aracı kümelemesi uygulayın.
Sorumu: PCA bileşenlerinin sayısı kümelenme analizi ile ilgili gibi görünüyordu. Yani, doğruysa, söyleyin, tüm özelliklerin% 90'ından fazlasını açıklayan 5 PCA bileşeni bulduğumuz takdirde, o zaman k-aracı kümelemesi uygular ve 5 küme elde ederiz. Öyleyse, 5 grup PCA analizindeki 5 bileşene tam olarak karşılık gelecek mi?
Başka bir deyişle, sanırım sorum şu: PCA analizi ve k-aracı kümelenmesi arasındaki bağlantı nedir?
Güncellemeler: Emre, xeon ve Kirill'in girdileri sayesinde. Yani şimdiki cevaplar:
Kümeleme analizinden önce PCA yapmak, özellik çıkarıcı olarak boyutluluk azaltma ve kümeleri görselleştirme / gösterme için de kullanışlıdır.
Kümelemeden sonra PCA yapmak kümeleme algoritmasını doğrulayabilir (referans: Çekirdek temel bileşen analizi ).
PCA bazen kümelemeden önce veri kümesinin boyutunu azaltmak için uygulanır. Ancak, Yeung ve Ruzzo (2000), orijinal değişkenler yerine PC'lerle kümelemenin kümelenme kalitesini mutlaka iyileştirmediğini göstermiştir. Özellikle, ilk birkaç bilgisayar (verideki varyasyonun çoğunu içeren) kümelenme yapısının çoğunu yakalamaz.
- Yeung, Ka Yee ve Walter L. Ruzzo. Gen ekspresyonu verilerinin kümelenmesinde temel bileşen analizi üzerine ampirik bir çalışma. Teknik rapor, Bilgisayar Bilimi ve Mühendisliği Bölümü, Washington Üniversitesi, 2000. ( pdf )
İki aşamalı kümeleme analizinden önce PCA gerekli görünüyordu . PCA'da tanımlanan faktörler kullanılarak küme analizinin yapıldığı Ibes'e (2015) dayanarak.
- Ibes, Dorothy C. Kentsel bir park sisteminin çok boyutlu bir sınıflandırma ve eşitlik analizi: Yeni bir metodoloji ve vaka çalışması uygulaması. Peyzaj ve Kentsel Planlama , Cilt 137, Mayıs 2015, Sayfa 122–137.