Teknik olarak, nominal özelliklerdeki bireyler arasında bir dis (benzerlik) ölçümü hesaplamak için çoğu program ilk önce her bir nominal değişkeni bir dizi sahte ikili değişkene yeniden kodlar ve daha sonra ikili değişkenler için bazı hesaplamaları hesaplar. İşte bazı sık kullanılan ikili benzerlik ve farklılık ölçümlerinin formülleri .
Sahte değişkenler (one-hot olarak da bilinir) nedir? Aşağıda 5 birey, iki nominal değişken bulunmaktadır (3 kategorili A, 2 kategorili B). A yerine 3 kukla, B yerine 2 kukla
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Bir manken değişkenini "gereksiz" olarak ortadan kaldırmaya gerek yoktur, çünkü genellikle mankenlerle regresyonda yapacağız. Özel durumlarda da olsa bu seçeneği göz önünde bulundurarak kümelenmede uygulanmaz.)
İkili değişkenler için birçok önlem vardır, ancak bunların hepsi mantıksal olarak kukla ikili değişkenlere, yani eski nominal değişkenlere uygun değildir . Nominal bir değişken için "2 kişi eşleşir" ve "2 kişi eşleşmez" gerçeğinin eşit derecede önemli olduğunu görürsünüz. Ama popüler Jaccard ölçüsü dikkate ,bira + b + c
- a - her iki birey için manken 1 sayısı
- b - bunun için aptal sayısı 1 ve bunun için 0 aptal sayısı
- c - bunun için 0 ve bunun için 1 aptal sayısı
- d - her ikisi için kukla sayısı 0
Burada uyumsuzluk ve üzere iki varyanttan oluşur ; ama bizim için, daha önce de belirtildiği gibi, her biri maç aynı öneme sahiptir . Bu nedenle biz ağırlık iki katına çıkacaktır ve formül olsun olarak bilinen Zar (sonra Lee Zar) ya da Czekanovsky-Sorensen ölçer. Sahte değişkenler için daha uygundur. Gerçekten de, tüm özellikler nominal olduğunda ünlü kompozit Gower katsayısı (sizin için nominal özelliklerinizle önerilir) tam olarak Dice'e eşittir. Ayrıca kukla değişkenler için Zar ölçüsü (bireyler arasında) = Ochiai ölçüsü (ki bu sadecebcbirbir2 a2 a + b + ckosinüs ) = Kulczynsky 2 ölçüsü. Ve daha fazla bilgi için, 1-Zar = ikili Lance-Williams mesafesi Bray-Curtis mesafesi olarak da bilinir . Kaç eşanlamlı bakın - yazılımınızda bir şey bulacağınızdan emin olabilirsiniz!
Zar benzerlik katsayısının sezgisel geçerliliği, basitçe ortak-oluşum oranı (veya göreceli anlaşma ) olmasından kaynaklanmaktadır . Yukarıdaki veri snippet'i için nominal sütun alın A
ve 5x5
kare simetrik matrisi 1
(her iki kişi aynı kategoride düştü) veya 0
(aynı kategoride değil ) hesaplayın . Aynı şekilde matrisi de hesaplayın B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
İki matrisin karşılık gelen girişlerini toplayın ve 2'ye (nominal değişken sayısı) bölün - burada Zar katsayıları matrisindesiniz. (Yani, aslında Zar hesaplamak için aptallar oluşturmak zorunda değilsiniz, matris işlemleri ile muhtemelen daha önce açıklandığı gibi daha hızlı yapabilirsiniz.) Nominal özelliklerin ilişkilendirilmesi için Zar ile ilgili bir konuya bakın .
Zarlar, özniteliklerin kategorik olduğu durumlar arasında (dis) benzerlik işlevi istediğinizde kullanılacak en belirgin önlem olsa da, diğer ikili önlemler kullanılabilir - eğer formüllerini nominal verilerinizle ilgili değerlendirmeleri tatmin ederse.
Gibi önlemler Basit Eşleştirme (SM veya Rand) içerirler payındaki onlar 0-0 (her iki birey yapmak tedavi olduğu gerekçesiyle size uygun olmaz belirli bir ortak niteliğe / kategoriye sahip değildir ), orijinal olarak nominal, niteliksel özelliklerle açıkça saçma olan bir eşleşme olarak. Bu nedenle, kukla değişkenler kümesiyle kullanmayı planladığınız benzerlik veya farklılığın formülünü kontrol edin: eğer , eşliğin temeli olarak varsa veya ise, bu ölçüyü nominal veriler için kullanmayın. Örneğin, formülün ikili verileri sadece olan kare Öklid mesafesia + da + b + c + dddb + c(ve bu durumda Manhattan mesafesine veya Hamming mesafesine eşanlamlıdır) eşliğin temeli olarak görür. Aslında, , burada ikili özelliklerin sayısıdır; bu nedenle Öklid mesafesi SM ile bilgi olarak eşit değerdedir ve başlangıçta nominal verilere uygulanmamalıdır.dd2= p ( 1 - SM)p
Ama ...
Önceki "teorik" paragrafı okuduktan sonra - yazdıklarıma rağmen - ikili katsayıların çoğunluğunun (ayrıca kullananların ) pratikte çoğu zaman yapacağını fark ettim . Bazı nominal değerlerden elde edilen kukla değişkenlerle Zar katsayısının kesinlikle diğer ikili ölçümlerle (kısaltma SPSS'de anahtar kelimenin anahtar kelimesidir) işlevsel olarak ilişkili olduğunu kontrol ederek oluşturdum :d
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Yakınlık matrisinin birçok kümesinde, örneğin küme analizi yöntemlerinde olduğu gibi, sonuçlar doğrusal olmayan (ve bazen monotonik altında) yakınsama dönüşümü altında değişmeyecek veya değişmeyecektir, bu çok sayıda aynı veya benzer sonuçlar elde etmek için Zar dışında ikili önlemler. Ama gerekir ilk keşfetmek / düşünün nasıl özgü (örneğin bir yöntem bağlantı yakınlıklarına belirli bir dönüşümüne hiyerarşik kümeleme olarak) tepki verir.
Planlanan kümelenme veya MDS analiziniz, yukarıdaki tabloda "monotonik" olarak belirtilen önlemleri kullanmaktan kaçındığınız mesafelerin monotonik dönüşümlerine duyarlıysa (ve dolayısıyla evet, Jaccard benzerliği veya kukla ile eşitsiz öklid mesafesi kullanmak iyi bir fikir değildir. , yani eski nominal özellikler).