Küme analizinin varsayımları


16

Temel soru için özür dilerim, bu analiz biçiminde yeniyim ve şu ana kadar prensipleri çok sınırlı bir şekilde anladım.

Sadece çok değişkenli / tek değişkenli testler için parametrik varsayımların çoğunun Küme analizi için geçerli olup olmadığını merak ediyordum. Küme analizi ile ilgili okuduğum bilgi kaynaklarının birçoğu varsayımları belirtmekte başarısız olmaktadır.

Özellikle gözlemlerin bağımsızlığı varsayımı ile ilgileniyorum. Anladığım kadarıyla, bu varsayımın ihlali (örneğin ANOVA ve MAVOVA'da) ciddidir çünkü hata tahminlerini etkiler. Şimdiye kadar yaptığım okumadan, küme analizinin büyük ölçüde tanımlayıcı bir teknik olduğu görülüyor (bu sadece belirli durumlarda istatistiksel çıkarım içerir). Buna göre, bağımsızlık ve normal olarak dağıtılmış veriler gibi varsayımlar gerekli midir?

Bu konuyu tartışan metin önerileri çok takdir edilecektir. Çok teşekkürler.

Yanıtlar:


7

Kümeleme teknikleri, geometrik anlamda birbirine alışılmadık derecede yakın olan istatistiksel birim gruplarını aradığımız mesafeye dayalı yöntemlerle sınırlı değildir . Ayrıca yoğunluk (kümeler özellik alanında "bölgeler" olarak görülür) veya olasılık dağılımına dayanan çeşitli teknikler de vardır .

İkinci durum, model tabanlı kümeleme olarak da bilinir ; Psikometristler terimi kullanmak Analizi Profil latent bu özel durumda göstermek için sonlu Karışım Model biz nüfus farklı gözlenmemiş grubu ya da latent sınıfların oluştuğunu varsayalım, ve belirgin değişkenlerin bileşik yoğunluğu bu sınıf-bir karışımı olduğu, özgül yoğunluk. İyi uygulama mevcuttur Mclust paket veya sitede Mplus yazılımı. Farklı sınıf-değişmez kovaryans matrisleri kullanılabilir (aslında, Mclust, kümelerin sayısını değiştirirken en uygun olanı seçmek için BIC ölçütünü kullanır).

Standart Gizli Sınıf Modeli , gözlenen verilerin g çok değişkenli çok terimli dağılımların bir karışımından geldiğini varsayar. Model tabanlı küme analizinde iyi bir genel bakış mevcuttur : bir Savunma , Gilles Celeux.

Bu yöntemler dağıtım varsayımlarına dayanmakla birlikte, bu aynı zamanda mesafe tabanlı küme analizinde zor bir sorun olmaya devam eden küme veya sınıfların sayısına karar vermek için resmi testler veya uyum iyiliği endekslerinin kullanılmasını mümkün kılar, ancak aşağıdaki makalelere bakın. bu konuyu tartıştı:

  1. Handl, J., Knowles, J. ve Kell, DB (2005). Post-genomik veri analizinde hesaplamalı küme validasyonu. Biyoinformatik , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Küme istikrarının küme açısından değerlendirilmesi. Hesaplamalı İstatistik ve Veri Analizi , 52 , 258-271.
  3. Hennig, C. (2008) Çözünme noktası ve izolasyon sağlamlığı: genel küme analiz yöntemleri için sağlamlık kriterleri. Çok Değişkenli Analiz Dergisi , 99 , 1154-1176.

3

Doğası gereği keşif yapan çok çeşitli kümeleme yöntemleri vardır ve hiyerarşik veya bölüm tabanlı olan herhangi birinin, varyansı analiz etmek için karşılaması gereken varsayımlara bağlı olduğunu düşünmüyorum.

Sorunuzu cevaplamak için Stata'daki [MV] belgelerine bir göz atarak, bu eğlenceli teklifi 85. sayfada buldum:

Bazıları küme analizi yapan insanlar kadar küme analizi yöntemleri olduğunu söylemiş olsalar da. Bu iğrenç bir ifade! Bir küme analizi yapmanın, bunları gerçekleştiren insanlardan çok daha fazla yolu vardır.

Bu bağlamda, kümeleme yöntemine uygulanan herhangi bir varsayım olduğundan şüpheliyim. Metnin geri kalanı, kümeler oluşturmak için metrik mesafe bile olması gerekmeyen bir çeşit "benzerlik ölçüsü" ne ihtiyaç duyduğunuz genel bir kural olarak ortaya çıkar.

Bununla birlikte, bir istisna vardır; bu, tahmin sonrası analizin bir parçası olarak gözlemleri kümelediğiniz zamandır. Stata'da, vcekomut aynı kaynağın 86. sayfasında aşağıdaki uyarıyla birlikte gelir:

Stata'nın geniş tahmin komutları dizisine aşina iseniz, küme analizi (küme komutu) ile birçok tahmin komutunda izin verilen vce (küme clustvar) seçeneğini birbirinden ayırmaya dikkat edin. Küme analizi verilerdeki grupları bulur. Çeşitli tahmin komutlarıyla izin verilen vce (cluster clustvar) seçeneği, gözlemlerin seçenek tarafından tanımlanan gruplar arasında bağımsız olduğunu, ancak bu gruplar içinde bağımsız olması gerekmediğini gösterir. Küme komutu tarafından üretilen bir gruplama değişkeni, vce (cluster clustvar) seçeneğinin kullanımının ardındaki varsayımı nadiren karşılar.

Buna dayanarak, söz konusu olayın dışında bağımsız gözlemlerin gerekli olmadığını varsayacağım. Sezgisel olarak, küme analizinin, gözlemlerin ne ölçüde bağımsız olup olmadığını tam olarak araştırmak için bile kullanılabileceğini de ekleyebilirim.

Ben de, o bahsederek bitirmek edeceğiz sayfa 356 arasında Stata ile İstatistik o konuyla ilgili ayrıntılı bilgileri daha gitmez rağmen Lawrence Hamilton, küme analizi bir "temel" yönü olarak değişkenleri standardize bahseder.


2

Uzamsal küme analizi, coğrafi olarak başvurulan gözlemleri kullanır ve keşif analizi ile sınırlı olmayan bir küme analizinin alt kümesidir.

örnek 1

Adil seçim bölgeleri yapmak için kullanılabilir.

ÖRNEK 2

AMOEBA kümeleme yönteminde yerel uzamsal otokorelasyon önlemleri kullanılmaktadır . Aldstadt ve Getis, ortaya çıkan kümeleri, bir hipotezi test etmek için uzamsal regresyonlarda belirtilebilecek bir uzamsal ağırlık matrisi oluşturmak için kullanır .

Bkz. Aldstadt, Jared ve Arthur Getis (2006) “Mekansal ağırlık matrisi oluşturmak ve mekansal kümeleri tanımlamak için AMOEBA'yı kullanma.” Coğrafi Analiz 38 (4) 327-343

ÖRNEK 3

Bir dizi kriter verilen rastgele büyüyen bölgelere göre küme analizi olabilir böyle okula devam bölgeleri veya seçim bölgelerinden olarak kurumsal bölgelerinin tasarımında adaletsizliği göstermek için bir olasılık bir yöntem olarak kullanılabilir.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.