Veri setimde hem sürekli hem de doğal olarak ayrık değişkenler var. Her iki değişken türünü kullanarak hiyerarşik kümelemeyi yapıp yapamayacağımızı bilmek istiyorum. Ve eğer evet ise, hangi mesafe ölçüsü uygundur?
Veri setimde hem sürekli hem de doğal olarak ayrık değişkenler var. Her iki değişken türünü kullanarak hiyerarşik kümelemeyi yapıp yapamayacağımızı bilmek istiyorum. Ve eğer evet ise, hangi mesafe ölçüsü uygundur?
Yanıtlar:
Bir yol, bileşik bir ölçü olan Gower benzerlik katsayısını kullanmaktır ; nicel (derecelendirme ölçeği gibi), ikili (mevcut / yok gibi) ve nominal (işçi / öğretmen / katip gibi) değişkenleri alır. Daha sonra Podani sıralı değişkenleri de alma seçeneği ekledi.2
Katsayı, bir formül olmadan bile kolayca anlaşılır; Her değişkene göre bireyler arasındaki benzerlik değerini hesaplar, değişkenin türünü hesaba katar ve sonra tüm değişkenler arasında ortalama hesaplarsınız. Genellikle Gower'ı hesaplayan bir program değişkenleri ağırlıklandırmanıza, yani bileşik formülüne katkılarını sağlar. Bununla birlikte, farklı tipteki değişkenlerin uygun şekilde tartılması bir problemdir , Gower veya diğer "bileşik" yakınlık endekslerini çekenlerin yüzlerini çeken kesin bir kılavuz yoktur.
Gower benzerliğinin farklı yönleri ( ):
(Türlerin listesini genişletmek kolaydır. Örneğin, benzerliğe dönüştürülmüş normalleştirilmiş ki kare mesafe kullanılarak sayım değişkenleri için bir summand eklenebilir.)
Katsayı 0 ile 1 arasındadır.
" Gower mesafesi ". Sıralı değişkenler mevcut değilse (yani Podani'nin seçeneğini kullanarak w / o) Öklid mesafesi olarak davranır, öklid uzayını tamamen destekler. Fakat , , yalnızca metriktir (üçgen eşitsizliğini destekler). Sıralı değişkenler mevcutken (Podani'nin seçeneğini kullanarak) Öklid değil, yalnızca metriktir; ve hiç de metrik değil. Ayrıca bakınız .
Öklid mesafeleriyle (Öklid uzayını destekleyen mesafeler), hemen hemen her klasik kümeleme tekniğini gerçekleştirir. K-araçları dahil (eğer K-aracı programınız elbette uzaklık matrislerini işleyebilirse) ve Ward's, centroid, hiyerarşik kümelemenin ortanca yöntemlerini içerir . K-araçlarının veya öklid olmayan hala metrik mesafeli Öklid mesafesine dayanan diğer metotların kullanılması , belki de buluşsal olarak kabul edilebilir. Metrik olmayan mesafelerde, böyle bir yöntem kullanılamaz.
Önceki paragraf, K-araçları veya Ward'ın veya böyle bir kümelenmenin yasal olarak ( Gower ) matematiksel olarak (geometrik olarak) olup olmadığı hakkında konuşur . Kaynaktan ölçüm ölçekli ( "psikometrik") görünümden bir nokta her kategorik bunun ortalama veya Öklid mesafe sapmaları (nominal ikili yanı sıra sıra) verileri hesaplamak gerekir; bu nedenle bu duruştan Kower, Ward vb. Gower katsayısını işlemeyebilirsiniz. Bu bakış açısı, bir Öklid boşluğu olsa bile, granüle olabileceği, düzlemeyeceği ( ilgili ) bakınız uyarmaktadır .
Gower JC genel benzerlik katsayısı ve bazı özelliklerini // Biyometri, 1971, 27, 857-872
Podani J. karakterlerin // Takson, 1999, 48, 331-340 benzerlik Gower genel katsayısı uzatılması
Bu soruya tökezlediyseniz ve R'deki Gower metrik değerini kullanmak için hangi paketi indireceğinizi merak ediyorsanız , cluster
paketin her değişken türünde kullanıldığında varsayılan olarak Gower metrikini kullanan daisy () adlı bir işlevi vardır. Veya Gower'ın metriğini kullanmak için manuel olarak ayarlayabilirsiniz.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.