Nitelikler nominal olduğunda bireyler için en uygun mesafe işlevi nedir?


12

Nominal (sıralanmamış kategorik) özellikler durumunda bireyler arasında hangi mesafe işlevinin kullanılacağını bilmiyorum. Bazı ders kitapları okuyordum ve Basit Eşleştirme işlevini önerdiler, ancak bazı kitaplar nominal değerleri ikili özelliklere değiştirip Jaccard Katsayısı kullanmam gerektiğini gösteriyor . Ancak, nominal özelliğin değerleri 2 değilse ne olur? bu özellikte üç veya dört değer varsa ne olur?

Nominal özellikler için hangi mesafe fonksiyonunu kullanmalıyım?


1
Bu yazıyı Cramer's V ve Chi kare istatistiği üzerinde faydalı buldum .
KarthikS

Yanıtlar:


18

Teknik olarak, nominal özelliklerdeki bireyler arasında bir dis (benzerlik) ölçümü hesaplamak için çoğu program ilk önce her bir nominal değişkeni bir dizi sahte ikili değişkene yeniden kodlar ve daha sonra ikili değişkenler için bazı hesaplamaları hesaplar. İşte bazı sık kullanılan ikili benzerlik ve farklılık ölçümlerinin formülleri .

Sahte değişkenler (one-hot olarak da bilinir) nedir? Aşağıda 5 birey, iki nominal değişken bulunmaktadır (3 kategorili A, 2 kategorili B). A yerine 3 kukla, B yerine 2 kukla

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Bir manken değişkenini "gereksiz" olarak ortadan kaldırmaya gerek yoktur, çünkü genellikle mankenlerle regresyonda yapacağız. Özel durumlarda da olsa bu seçeneği göz önünde bulundurarak kümelenmede uygulanmaz.)

İkili değişkenler için birçok önlem vardır, ancak bunların hepsi mantıksal olarak kukla ikili değişkenlere, yani eski nominal değişkenlere uygun değildir . Nominal bir değişken için "2 kişi eşleşir" ve "2 kişi eşleşmez" gerçeğinin eşit derecede önemli olduğunu görürsünüz. Ama popüler Jaccard ölçüsü dikkate ,aa+b+c

  • a - her iki birey için manken 1 sayısı
  • b - bunun için aptal sayısı 1 ve bunun için 0 aptal sayısı
  • c - bunun için 0 ve bunun için 1 aptal sayısı
  • d - her ikisi için kukla sayısı 0

Burada uyumsuzluk ve üzere iki varyanttan oluşur ; ama bizim için, daha önce de belirtildiği gibi, her biri maç aynı öneme sahiptir . Bu nedenle biz ağırlık iki katına çıkacaktır ve formül olsun olarak bilinen Zar (sonra Lee Zar) ya da Czekanovsky-Sorensen ölçer. Sahte değişkenler için daha uygundur. Gerçekten de, tüm özellikler nominal olduğunda ünlü kompozit Gower katsayısı (sizin için nominal özelliklerinizle önerilir) tam olarak Dice'e eşittir. Ayrıca kukla değişkenler için Zar ölçüsü (bireyler arasında) = Ochiai ölçüsü (ki bu sadecebcbirbir2bir2bir+b+ckosinüs ) = Kulczynsky 2 ölçüsü. Ve daha fazla bilgi için, 1-Zar = ikili Lance-Williams mesafesi Bray-Curtis mesafesi olarak da bilinir . Kaç eşanlamlı bakın - yazılımınızda bir şey bulacağınızdan emin olabilirsiniz!

Zar benzerlik katsayısının sezgisel geçerliliği, basitçe ortak-oluşum oranı (veya göreceli anlaşma ) olmasından kaynaklanmaktadır . Yukarıdaki veri snippet'i için nominal sütun alın Ave 5x5kare simetrik matrisi 1(her iki kişi aynı kategoride düştü) veya 0(aynı kategoride değil ) hesaplayın . Aynı şekilde matrisi de hesaplayın B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

İki matrisin karşılık gelen girişlerini toplayın ve 2'ye (nominal değişken sayısı) bölün - burada Zar katsayıları matrisindesiniz. (Yani, aslında Zar hesaplamak için aptallar oluşturmak zorunda değilsiniz, matris işlemleri ile muhtemelen daha önce açıklandığı gibi daha hızlı yapabilirsiniz.) Nominal özelliklerin ilişkilendirilmesi için Zar ile ilgili bir konuya bakın .

Zarlar, özniteliklerin kategorik olduğu durumlar arasında (dis) benzerlik işlevi istediğinizde kullanılacak en belirgin önlem olsa da, diğer ikili önlemler kullanılabilir - eğer formüllerini nominal verilerinizle ilgili değerlendirmeleri tatmin ederse.

Gibi önlemler Basit Eşleştirme (SM veya Rand) içerirler payındaki onlar 0-0 (her iki birey yapmak tedavi olduğu gerekçesiyle size uygun olmaz belirli bir ortak niteliğe / kategoriye sahip değildir ), orijinal olarak nominal, niteliksel özelliklerle açıkça saçma olan bir eşleşme olarak. Bu nedenle, kukla değişkenler kümesiyle kullanmayı planladığınız benzerlik veya farklılığın formülünü kontrol edin: eğer , eşliğin temeli olarak varsa veya ise, bu ölçüyü nominal veriler için kullanmayın. Örneğin, formülün ikili verileri sadece olan kare Öklid mesafesibir+dbir+b+c+dddb+c(ve bu durumda Manhattan mesafesine veya Hamming mesafesine eşanlamlıdır) eşliğin temeli olarak görür. Aslında, , burada ikili özelliklerin sayısıdır; bu nedenle Öklid mesafesi SM ile bilgi olarak eşit değerdedir ve başlangıçta nominal verilere uygulanmamalıdır.dd2=p(1-SM)p

Ama ...

Önceki "teorik" paragrafı okuduktan sonra - yazdıklarıma rağmen - ikili katsayıların çoğunluğunun (ayrıca kullananların ) pratikte çoğu zaman yapacağını fark ettim . Bazı nominal değerlerden elde edilen kukla değişkenlerle Zar katsayısının kesinlikle diğer ikili ölçümlerle (kısaltma SPSS'de anahtar kelimenin anahtar kelimesidir) işlevsel olarak ilişkili olduğunu kontrol ederek oluşturdum :d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Yakınlık matrisinin birçok kümesinde, örneğin küme analizi yöntemlerinde olduğu gibi, sonuçlar doğrusal olmayan (ve bazen monotonik altında) yakınsama dönüşümü altında değişmeyecek veya değişmeyecektir, bu çok sayıda aynı veya benzer sonuçlar elde etmek için Zar dışında ikili önlemler. Ama gerekir ilk keşfetmek / düşünün nasıl özgü (örneğin bir yöntem bağlantı yakınlıklarına belirli bir dönüşümüne hiyerarşik kümeleme olarak) tepki verir.

Planlanan kümelenme veya MDS analiziniz, yukarıdaki tabloda "monotonik" olarak belirtilen önlemleri kullanmaktan kaçındığınız mesafelerin monotonik dönüşümlerine duyarlıysa (ve dolayısıyla evet, Jaccard benzerliği veya kukla ile eşitsiz öklid mesafesi kullanmak iyi bir fikir değildir. , yani eski nominal özellikler).


evet değerleri doğru buluyorsunuz .. bir özniteliğin üç olası değeri vardır
Jane Doe

2
Aynı özellikte iki değerim olduğunu varsayalım, "top", "boş", "soluk" ve bunu 11 01 ve 00'a dönüştürdüm. 11 ile 00 arasındaki Jaccard mesafesini ölçmek istiyorum. Bu durumda, mesafe 1? çünkü a = 0 b = 2 c = 0 ve d = 0? Lütfen bana haber ver!
Jane Doe

Son yorumunuzun nedenini özledim. Lütfen açıkça sorun. Veya yukarıdaki örnek verilerimi 5 kişi ve 2 nominal özellik ile kullanın ve hangi kişiyle karşılaştırmamı istediğinizi ve hangi dis (benzerlik) ölçtüğünü söyleyin.
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.