Karma tip veri ile hiyerarşik kümeleme - hangi uzaklık / benzerlik kullanılır?


34

Veri setimde hem sürekli hem de doğal olarak ayrık değişkenler var. Her iki değişken türünü kullanarak hiyerarşik kümelemeyi yapıp yapamayacağımızı bilmek istiyorum. Ve eğer evet ise, hangi mesafe ölçüsü uygundur?


Hangi yazılımı kullanıyorsun?
rolando2

@ rolando2: R (hclus paketi) kullanıyorum.
Beta

1
Hiyerarşik kümelemeyi kullanmanın bir nedeni var mı?
suncoolsu 7:11

Na. Sadece bu soruyu bildiğim kadarıyla soruyorum. Karışık veri türümüz olduğunda hiyerarşik yapabilir miyiz? Cevabınız evet ise neden? Hayır ise neden?
Beta

@ user4278 Peki, gayet iyi hedefiniz nedir? Kümeleri (bireylerin) tanımlamak mı istiyorsunuz?
chl

Yanıtlar:


45

Bir yol, bileşik bir ölçü olan Gower benzerlik katsayısını kullanmaktır ; nicel (derecelendirme ölçeği gibi), ikili (mevcut / yok gibi) ve nominal (işçi / öğretmen / katip gibi) değişkenleri alır. Daha sonra Podani sıralı değişkenleri de alma seçeneği ekledi.122

Katsayı, bir formül olmadan bile kolayca anlaşılır; Her değişkene göre bireyler arasındaki benzerlik değerini hesaplar, değişkenin türünü hesaba katar ve sonra tüm değişkenler arasında ortalama hesaplarsınız. Genellikle Gower'ı hesaplayan bir program değişkenleri ağırlıklandırmanıza, yani bileşik formülüne katkılarını sağlar. Bununla birlikte, farklı tipteki değişkenlerin uygun şekilde tartılması bir problemdir , Gower veya diğer "bileşik" yakınlık endekslerini çekenlerin yüzlerini çeken kesin bir kılavuz yoktur.

Gower benzerliğinin farklı yönleri ( ):GS

  • Tüm değişkenler kantitatif (aralık) olduğunda, katsayı, benzerliğe dönüştürülen aralık normalize edilmiş Manhattan mesafesidir . Normalizasyon nedeniyle farklı birimlerin değişkenleri güvenle kullanılabilir. Ancak aykırılıkları unutmamalısın. (Aralıktan daha başka bir yayılma ölçüsü ile normalleşmeye de karar verebilirsiniz.) Söz konusu normalleşmeden dolayı, veri kümesindeki bireylerin kompozisyonuna duyarlı olan bir aralık gibi bir istatistik tarafından istatistiklenen bazı iki kişi arasındaki Gower benzerliği değerini değiştirebilir. Verilerdeki diğer bazı kişileri kaldırır veya eklerseniz.
  • Tüm değişkenler sıralı olduğunda, önce sıralanırlar, sonra Manhattan yukarıda, sayısal değişkenlerle, ancak bağlar için özel ayarlamayla hesaplanır.
  • Tüm değişkenler ikili olduğunda (kategorilerin asimetrik olarak anlamlı olması durumunda: "present" vs "absent" niteliği) o zaman katsayı, Jaccard eşleştirme katsayısıdır (bu katsayı, her iki birey de ne eşleşme ne de uyumsuzluktan yoksun olduğunda işlem yapar).
  • Tüm değişkenler nominal olduğunda (burada ayrıca simetrik önemi olan ikilik de dahil olmak üzere: "this" vs "ki") o zaman katsayı, kukla değişkenlere yeniden kodlarsanız, nominal değişkenlerinizden elde ettiğiniz Zar eşleştirme katsayısıdır ( daha fazla bilgi için bu cevaba bakın ) .

(Türlerin listesini genişletmek kolaydır. Örneğin, benzerliğe dönüştürülmüş normalleştirilmiş ki kare mesafe kullanılarak sayım değişkenleri için bir summand eklenebilir.)

Katsayı 0 ile 1 arasındadır.

" Gower mesafesi ". Sıralı değişkenler mevcut değilse (yani Podani'nin seçeneğini kullanarak w / o) Öklid mesafesi olarak davranır, öklid uzayını tamamen destekler. Fakat , , yalnızca metriktir (üçgen eşitsizliğini destekler). Sıralı değişkenler mevcutken (Podani'nin seçeneğini kullanarak) Öklid değil, yalnızca metriktir; ve hiç de metrik değil. Ayrıca bakınız .1GS1GS1GS1GS

Öklid mesafeleriyle (Öklid uzayını destekleyen mesafeler), hemen hemen her klasik kümeleme tekniğini gerçekleştirir. K-araçları dahil (eğer K-aracı programınız elbette uzaklık matrislerini işleyebilirse) ve Ward's, centroid, hiyerarşik kümelemenin ortanca yöntemlerini içerir . K-araçlarının veya öklid olmayan hala metrik mesafeli Öklid mesafesine dayanan diğer metotların kullanılması , belki de buluşsal olarak kabul edilebilir. Metrik olmayan mesafelerde, böyle bir yöntem kullanılamaz.

Önceki paragraf, K-araçları veya Ward'ın veya böyle bir kümelenmenin yasal olarak ( Gower ) matematiksel olarak (geometrik olarak) olup olmadığı hakkında konuşur . Kaynaktan ölçüm ölçekli ( "psikometrik") görünümden bir nokta her kategorik bunun ortalama veya Öklid mesafe sapmaları (nominal ikili yanı sıra sıra) verileri hesaplamak gerekir; bu nedenle bu duruştan Kower, Ward vb. Gower katsayısını işlemeyebilirsiniz. Bu bakış açısı, bir Öklid boşluğu olsa bile, granüle olabileceği, düzlemeyeceği ( ilgili ) bakınız uyarmaktadır .


1 Gower JC genel benzerlik katsayısı ve bazı özelliklerini // Biyometri, 1971, 27, 857-872

2 Podani J. karakterlerin // Takson, 1999, 48, 331-340 benzerlik Gower genel katsayısı uzatılması


Teşekkürler ttnphns! Lütfen bana "Gower benzerlik katsayısı" nın R'deki hclus paketine dahil olduğunu söyleyebilir misiniz? Bu işlevselliğe sahip R'de herhangi bir paket var mı?
Beta

Ben R kullanıcısı değilim, o yüzden bilmiyorum ve hclus'ta bulacağınızı düşünmeyin. Ancak Google "Gower benzerliği R" yi arıyorsanız, ihtiyacınız olanı bulacağınızdan emin olabilirsiniz!
ttnphns

user4278, SPSS'den vazgeçmemeniz durumunda, web sayfamda Gower benzerliği için bir makro var. Ağırlıklandırma ve veri eksikliğini kabul eder.
ttnphns 09:11

@ user4278 Özellikle R hakkında, buradan başlayın: cran.r-project.org/web/views/Environmetrics.html
chl

@ ttnphns: Teşekkürler! Sizi web sitesini ziyaret ettim ve SPSS için harika bir kaynak. Fakat ne yazık ki SPSS'i çok fazla kullanmıyorum. Ama R.'de bir şey bulamazsam kesinlikle kullanacağım @ @ chl: Teşekkürler! Ama bu çok büyük bir liste. Bir yerlerde, küme paketindeki Daisy'nin Gower benzerliği işlevselliğine sahip olduğunu okudum.
Beta

15

Bu soruya tökezlediyseniz ve R'deki Gower metrik değerini kullanmak için hangi paketi indireceğinizi merak ediyorsanız , clusterpaketin her değişken türünde kullanıldığında varsayılan olarak Gower metrikini kullanan daisy () adlı bir işlevi vardır. Veya Gower'ın metriğini kullanmak için manuel olarak ayarlayabilirsiniz.

daisy(x, metric = c("euclidean", "manhattan", "gower"),
      stand = FALSE, type = list(), weights = rep.int(1, p))

4
Zhubarb'ın cevabına ek olarak , Gower'ın iki veri setindeki tüm çiftler arasındaki mesafeleri görmek istiyorsanız , R paketine bakın StatMatch.
James Hirschorn
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.