Kategorik verilerle, değişkenler ilişkili olmayan kümeler olabilir mi?


19

Küme analizlerini açıklamaya çalışırken, insanların süreci değişkenlerin ilişkili olup olmadığı ile ilgili olarak yanlış anlamaları yaygındır. İnsanları bu karışıklığı aşmanın bir yolu şöyledir:

resim açıklamasını buraya girin

Bu, kümelerin olup olmadığı sorusu ile değişkenlerin ilişkili olup olmadığı sorusu arasındaki farkı açıkça göstermektedir. Ancak, bu sadece sürekli veri ayrımını gösterir. Kategorik verilerle bir analog düşünürken sorun yaşıyorum:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

İki açık küme olduğunu görebiliriz: hem A hem de B mülküne sahip olan ve hiçbiri olmayan insanlar. Bununla birlikte, değişkenlere bakarsak (örneğin, ki-kare testi ile), bunlar açıkça ilişkilidir:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Yukarıdaki sürekli verilerle kategorik verilerle bir örnek oluşturma konusunda bir kayıp olduğumu düşünüyorum. Değişkenler de ilişkili olmadan tamamen kategorik verilerde kümeler olması mümkün müdür? Değişkenlerin ikiden fazla düzeyi varsa veya daha fazla sayıda değişkeniniz varsa ne olur? Gözlemlerin kümelenmesi, değişkenler arasında tersine ilişki gerektiriyorsa, bu sadece kategorik verileriniz olduğunda kümelemenin gerçekten yapmaya değmeyeceği anlamına gelir mi (yani, sadece değişkenleri analiz etmelisiniz)?


Güncelleme: Orijinal sorudan çok şey ayırdım çünkü sadece küme analizlerine aşina olmayan birine bile hemen sezgisel olabilecek basit bir örneğin yaratılabileceği fikrine odaklanmak istedim. Ancak, kümelenmenin mesafelerin ve algoritmaların vb. Seçimlerine bağlı olduğunu biliyorum. Daha fazlasını belirtirsem yardımcı olabilir.

Pearson korelasyonunun gerçekten sadece sürekli veriler için uygun olduğunun farkındayım. Kategorik veriler için, ki-kare testi (iki yönlü olasılık tablosu için) veya log-lineer modeli (çok yönlü olasılık tabloları için) kategorik değişkenlerin bağımsızlığını değerlendirmenin bir yolu olarak düşünebiliriz.

Bir algoritma için, hem sürekli duruma hem de kategorik verilere uygulanabilen k-medoid / PAM kullandığımızı hayal edebiliriz. (Sürekli örneğin arkasındaki amacın bir kısmının, makul bir kümeleme algoritmasının bu kümeleri algılayabilmesi ve eğer değilse, daha uç bir örneğin oluşturulması mümkün olduğuna dikkat edin.)

Mesafe anlayışı ile ilgili. Sürekli örnek için Öklid olduğunu varsaydım, çünkü saf bir izleyici için en temel şey olurdu. Kategorik veriler için benzer olan mesafenin (en derhal sezgisel olacağı şekilde) basit eşleşme olacağını düşünüyorum. Ancak, bu bir çözüme veya sadece ilginç bir tartışmaya yol açıyorsa, diğer mesafelerin tartışmasına açıkım.


2
Biz kategorik verilerde kümeler böyle bir şey var mı acaba hiç . Kümeler arasındaki varyans, kümeler içinde olduğundan daha büyük olacak ya da kümeler arasındaki yoğunluk farkı hakkında konuşabilir gibi değil. Bu nedenle, en clost eşleşmesi sık öğe kümeleriyse, kümelerin oluşması için değişkenlerin ilişkili olması gerekir.
ÇIKIŞ - Anony-Mousse

@ Anony-Mousse, bu ilginç. Bunu neden bir cevap haline getirmiyoruz? BTW, aslında var olan kümeleri görüntüleyebilirim (örneğin, çeşitli nominal değişken seviyeleri için farklı olasılıklara yol açan gizli sürekli değişkenlerde), ancak kastettiğiniz şeyden şüpheleniyorum.
gung - Monica'yı eski

Kategorik bir dağılımı, bileşenleri normalleştirilmiş frekanslar olan bir vektöre dönüştürebilirsiniz. Daha sonra Öklid metriği uygulanabilir. Yine de tek seçenek bu değil: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf ve en.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns, [data-association]etiketi eklediniz . Ne göstermesi gerektiğinden emin değilim ve alıntı / kullanım kılavuzu yok. Bu etikete gerçekten ihtiyacımız var mı? Silmek için iyi bir aday gibi görünüyor. CV'ye gerçekten ihtiyacımız varsa ve bunun ne olması gerektiğini biliyorsanız, en azından bir alıntı ekleyebilir misiniz?
gung - Monica'yı eski

@gung, ben de bu etiketin ne anlama gelebileceğini tam olarak anlamıyorum. Sorunun "öznitelikler arasındaki ilişkilendirme / korelasyon" konusu nedeniyle ekledim. Etiketi Q'dan veya tamamen silebilirsiniz. Öte yandan, tüm korelasyon / ilişkilendirme alanını kapsayan etiketlerimizi yeniden düşünmenin zamanı geldi (sanırım). Örneğin, "korelasyon" sadece Pearson korelasyonu için mi korunmalıdır? Yeni bir "değişken ilişkilendirmesi" etiketi oluşturmalı mıyız ("veri ilişkilendirmesi" yerine)?
ttnphns

Yanıtlar:


11

Sorudaki sağ üst resim gibi ilişkisiz ölçek değişkenleriyle açık küme durumunu düşünün. Ve verilerini kategorilere ayırın.

resim açıklamasını buraya girin

Hem X hem de Y değişkenlerinin ölçek aralığını şu anda kategorik etiketler olarak ele aldığımız 3 kutuya ayırdık. Dahası, bunları sıralı değil nominal olarak ilan edeceğiz, çünkü sorulan soru dolaylı ve öncelikle nitel verilerle ilgilidir. Noktaların boyutu, frekans çapraz tablo hücresindeki frekanstır; aynı hücredeki tüm olgular aynı kabul edilir.

Sezgisel ve en genel olarak, "kümeler", veri "boşluğundaki" seyrek bölgelerle ayrılmış veri noktalarının pıhtıları olarak tanımlanır. Başlangıçta ölçek verileriydi ve kategorize edilmiş verilerin çapraz tablolamasında aynı izlenim bırakıyor. X ve Y şimdi kategoriktir, ancak hala ilişkisiz görünüyorlar: ki-kare ilişkisi sıfıra çok yakın. Ve kümeler orada.

Ancak hatırlayın, tabloda sıralı olan nominal kategorilerle ilgileniyoruz. Gözlenen ki-kare değerini etkilemeden tüm satırları ve / veya sütunları istediğimiz gibi yeniden sıralayabiliriz. Yeniden sıralama yapın ...

resim açıklamasını buraya girin

... kümelerin ortadan kaybolduğunu görmek için. Dört hücre, a1, a3, c1 ve c3, tek bir kümede birleştirilebilir. Yani hayır, kategorik verilerde gerçekten hiçbir kümemiz yok .

A1 ve c3 hücrelerinin vakaları (ya da a3 ve c1 gibi) tamamen farklı değildir: aynı nitelikleri paylaşmazlar. Verilerimizde kümeleri oluşturmak için - kümeleri oluşturmak için a1 ve c3 - bu vakaları veri kümesinden bırakarak a3 ve c1 hücrelerini büyük ölçüde boşaltmak zorundayız.

resim açıklamasını buraya girin

Şimdi kümeler var. Ama aynı zamanda ilişkisizliği kaybettik. Tabloda görülen köşegen yapı , chi-stare istatistiğinin sıfırdan uzaklaştığına işaret eder.

Yazık. İlişkisizliği ve az çok açık kümeleri aynı anda korumaya çalışalım. Örneğin, sadece a3 hücresini yeterince boşaltmaya ve sonra a1 + c1'i küme c3'e karşı gelen bir küme olarak düşünmeye karar verebiliriz:

resim açıklamasını buraya girin

Bu operasyon Chi-square'i sıfırdan uzağa getirmedi ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... ancak kümelerdeki durum karışık. A1 + c1 kümesi, kısmen özdeş, kısmen yarı farklı vakalar içerir. Bir kümenin nispeten düşük homojen olması, bir veri kümesindeki açık küme yapısı için bir engel değildir. Ancak, kategorik verilerimizle ilgili sorun, küme a1 + c1'in simetrik analogu olan küme c1 + c3'ten hiçbir şekilde daha iyi olmamasıdır. Bu, küme çözümünün kararsız olduğu anlamına gelir - veri kümesindeki vaka sırasına bağlı olacaktır. Kararsız bir çözüm, göreceli olarak "açık kümelenmiş" olsa bile, güvenilir olmayan kötü bir çözümdür.

Sorunun üstesinden gelmenin ve çözümü hem açık hem de kararlı hale getirmenin tek yolu, aşağıdaki verileri b3 hücresine (veya b2'ye) taşıyarak c3 hücresini c1 hücresinden çözmek olacaktır.

resim açıklamasını buraya girin

Yani a1 + c1 ve b3 arasındaki açık kümelerimiz var. Ama bak, burada tekrar köşegen desen ortaya çıkıyor - ve tablonun ki-kare sıfırın üstünde.

Sonuç . Aynı anda iki ki-kare ilişkisiz nominal değişkene ve veri vakalarının iyi kümelerine sahip olmak imkansızdır. Açık ve kararlı kümeler değişken ilişkiyi indükler.

İlişkilendirmenin mevcut olması - yani yeniden sıralama ile diyagonal paternin mevcut olması ya da gerçekleştirilebilir olması halinde - kümelerin mevcut olması gerektiği de açıktır. Bunun nedeni, kategorik verilerin ("tümü veya hiçbiri") doğasının yarım tonlara ve sınır koşullarına izin vermemesidir, bu nedenle OP'nin sorusunda sol alt kısımdaki resim kategorik, nominal verilerle ortaya çıkamaz.

Ben iki değişkenli, ki kare ile ilgisiz daha fazla nominal değişken (sadece iki yerine) elde ettiğimizde, kümelenme olasılığına yaklaştık. Ama sıfır çok değişkenli ki-kare, sanırım hala kümeler ile bağdaşmaz. Bu henüz gösterilmemelidir (bu sefer bana göre değil).


Son olarak, kısmen desteklediğim @ Bey'in (aka user75138) yanıtı üzerine bir açıklama. Anlaşmamla birlikte, "metrik kümelerden bağımsız değişken bir ilişki mi?" Sorusunu sormadan önce, uzaklık ölçüsü ve ilişkilendirme ölçüsü hakkında karar vermesi gerektiğine dair yorumda bulundum. Bunun nedeni, evrensel bir ilişki ölçüsü veya kümelerin evrensel istatistiksel tanımı olmamasıdır . Ayrıca, kümeleme tekniğine de karar vermesi gerektiğini de ekleyeceğim. Çeşitli kümeleme yöntemleri, neyin peşinde olduklarını "kümeler" olarak farklı tanımlar. Yani, tüm ifade doğru olabilir.

Bununla birlikte, böyle bir sözün zayıflığı çok geniş olmasıdır. Mesafe ölçüsü / ilişkilendirme ölçüsü / küme yöntemindeki bir seçimin, nominal veriler için kümelenmeyle ilişkisizliği uzlaştırmak için yer açıp açmayacağı, nerede ve nerede somut olarak gösterilmeye çalışılmalıdır. Özellikle, ikili veri için birçok yakınlık katsayısının nominal verilerle bir anlam ifade etmediğini, çünkü nominal veriler için "her iki durumda da bu nitelikten yoksundur" un asla benzerliklerinin temelini oluşturamayacağını aklınızdan çıkarmayın.


Simülasyon bulgularımı güncelleyerek güncelleyin .

0,1

r

Bulgular genellikle yukarıda cevap içinde gösterilen muhakemeyi desteklemektedir . Hiçbir zaman çok net kümeler olmadı (ki-kare ilişkisi güçlü olursa ortaya çıkabilir). Ve farklı kümelenme kriterlerinin sonuçları genellikle birbiriyle çelişiyordu (bu, kümelerin gerçekten net olduğu zaman beklenmesi pek olası değildir).

Bazen hiyerarşik kümeleme, bir kümeleme kriteri grafiği ile gözlemlendiği gibi, bir şekilde iyi olan bir k-küme çözümü sunabilir; ancak, kararlılık için test edilmesi kararlı olduğunu göstermez. Örneğin, bu 3 değişkenli 4x4x3veriler

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

tam bağlantı hiaratik yöntemiyle kümelenmiş olduğunda, Zar benzerliği, - oldukça makul olarak - 9 kümeye bölünmüş gibi görünmektedir - bu durumda üç iç geçerlilik hakimi arasında anlaşmaya varılmıştır:

resim açıklamasını buraya girin

Ancak, çözelti, orijinal çözeltinin karışık matrisinin izin verilen (vaka yeniden sipariş edilen) çözeltiye karşı tam olmayan seyrinden görüldüğü gibi kararlı değildir:

resim açıklamasını buraya girin

Çözüm kararlı olsaydı (muhtemelen sürekli verilerimiz olduğu gibi) 9 kümeli çözümü yeterince ikna edici olanı seçerdik.

Günlük olabilirlik mesafesine dayalı kümeleme (Zar benzerliğinin aksine) kararlı ve "kötü değil" (dahili olarak oldukça geçerli) çözümler verebilir. Ama yani , çünkü mesafe, SPSS TwoStep kümede olduğu gibi en azından desteklememiz yüksek nüfuslu kümeleri ve ihmal düşük nüfuslu olanlar. İçinde çok düşük frekanslı kümelerin içeride yoğun olmasını talep etmez (özellikle büyük veriler için tasarlanmış ve az sayıda küme vermek için tasarlanan TwoStep küme analizinin "politikası" gibi görünür; bu nedenle küçük kümeler aykırı gibi görünür) . Örneğin, bu 2 değişkenli veriler

resim açıklamasını buraya girin

TwoStep tarafından kararlı bir şekilde gösterildiği gibi 5 kümeye birleştirilir ve 5 küme çözümü bazı kümeleme ölçütlerine göre hiç de kötü değildir. Çünkü dört nüfuslu küme içeride çok yoğundur (aslında tüm vakalar aynıdır) ve az sayıda vaka içeren yalnızca bir, beşinci küme son derece entropidir. Aslında görünen 5 küme değil 12 küme çözümdür, ancak 12 bir "küme çözüm" olarak önemsiz ve ilginç olan sıklık tablosundaki toplam hücre sayısıdır.


+1, bundan şüpheliyim. Çift yönlü ilişkisiz ve çok değişkenli ilişkisiz arasındaki ilginç bir noktadır. Bu konuyu daha geniş olarak ele alırsak, bu tamamen nominal verileri kümelemeye çalışmanın gerçekten bir anlamı olmadığı anlamına mı geliyor? Yani sürekli bir veri yoksa değişkenleri her zaman analiz etmeli miyiz?
gung - Monica'yı eski

1
@gung, değişkenler arasındaki korelasyonun olguların kutuplaşmasının ("diagolness") madalyonun diğer tarafı olduğunu bilmiyor musunuz ? Bu, sürekli veriler için de maksim olarak doğrudur. Fakat sürekli olarak, kutuplaşma kümeler anlamına gelmeyebilir. Kategorik olarak, ima ettiği anlaşılıyor. Ayrık doğa nedeniyle. Muhtemelen evet, kategorik değişkenler birbiriyle ilişkili ise, bulunacak kümeler vardır. Ancak kümeleri daha iyi bir şekilde elde etmek için kümelenme yapmak zorundasınız . Bu, büyük sorunuz için geçici düşüncem.
ttnphns

Buna aşina değilim. Belki daha sonra soracağım. Şimdilik çiğnemek için iyi bir bilgi.
gung - Monica'yı eski

3

Bildiğim gibi, korelasyon iki değişken arasındaki doğrusal ilişkinin bir ölçüsüdür, noktaların birbirine ne kadar yakın olduğunu değil. Bu ilk dört rakamı açıklar.

Tabii ki, ayrık, gerçek değerli veriler için de benzer grafikler oluşturabilirsiniz.

X{bir,B,C,D}R,XR,X

Geometrik anlamda kümelenme hakkında gerçekten konuşabilmeniz için kategorik alan için bir metrik tanımlamanız gerekir.


Bu cevabı destekleyecektim ve hem @gung hem de Bey izin verirse sezgisel olarak yeniden biçimlendirirdim. Kümelenmiş veriler "kümedeki küçük mesafeler, ancak kümeler arasındaki uzun mesafeler" ile tanımlanır. Onun resimlerinde OP , kümelenme fikrini göstermek için örtülü olarak öklid mesafesini seçti . Ayrıca değişkenler arasındaki ilişki fikrini göstermek için Pearson korelasyonu ya da ona benzer bir şey seçti. Bunlar birçok alternatif arasında iki belirli / keyfi seçenektir.
ttnphns

1
(devam) Hatta "vaka kümelenmesi" anlayışı ve "değişken çağrışımlar" kavramının dikey olmadığı böyle bir mesafe ölçüsü ve böyle bir ilişkilendirme ölçüsü seçilebileceğini düşünebilirim. Ve şimdi, kategorik veriler için. İki kavramın bağımsız olup olmadığını kontrol edip göstermeden önce , kategorik veri noktaları için belirli bir mesafe ölçüsü ve kategorik değişkenler için belirli bir ilişki ölçüsü seçmesi gerekir. Aralarından seçim yapabileceğiniz birçok alternatif var! Ve cevap değişecek.
ttnphns

@ttnphns (+1) İki ana seçeneği nasıl çerçevelediğinizi seviyorum: mesafe ve ilişkilendirme metrikleri. Açıklamam hakkında sezgisel olmadığından emin değilim ... mesafe kavramı olmadan kümeleri tanımlayamazsınız.

@ttnphns, sanırım Bey'e kalmış. Neden bazı fikirlerinizi kendi cevabınıza çevirmiyorsunuz? "Vaka kümelenmesi" ve "değişken ilişkilendirmeler" in bazı seçenekler göz önüne alındığında sürekli veriler için dikey olmadığı fikriyle ilgilenirim. Bey & ttnphns, mesafe ve ilişkilendirme önlemleriyle ilgili soruya bazı açıklamalar ekledim, ancak isterseniz farklı bir yöne gitmekten çekinmeyin. Daha fazlasına ihtiyaç duyup duymadığını bana bildirin. Benim tercihim, sorunun cevaplayıcılara farklı bir yöne gitme esnekliği sağlamak için mümkün olduğunca 'gevşek' kalmasıdır.
gung - Monica'yı eski

1
@ Elbette, kategorik veriler için başka birçok olası mesafe ve ilişkilendirme önlemi var, bu yüzden onu çalıştıran ezoterik bir şey önermekte özgürsünüz.
gung - Monica'yı eski

2

Hamming mesafesini düşünün - eşit uzunlukta iki tel arasındaki Hamming mesafesi, karşılık gelen sembollerin farklı olduğu konum sayısıdır. Bu tanımdan, Hamming mesafesine dayalı kümelerimiz olan ancak değişkenler arasında korelasyon bulunmayan veriler üretebileceğimiz açıktır.

Mathematica kullanarak bir örnek.

Bazı kategorik veriler oluşturun (3 sembol uzunluğunda 4 karakterden oluşan rastgele rastgele örnekleme dizileri):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Değişkenler arasındaki ilişki için mozaik grafikleri kullanın (farklı sütunlardaki değer çiftleri için koşullu olasılıklar):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

resim açıklamasını buraya girin

Bir korelasyon olmadığını görebiliriz.

Kümeleri bulun:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Her karakteri bir tamsayı ile değiştirirsek, bu grafikten kümelerin Hamming mesafesi ile nasıl oluştuğunu görebiliriz:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

resim açıklamasını buraya girin

İleri kümeleme

Hamming mesafesinin 1 olduğu kelimeleri bağlayarak bir grafik yapalım:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

resim açıklamasını buraya girin

Şimdi topluluk kümelerini bulalım:

CommunityGraphPlot[nngr]

resim açıklamasını buraya girin

Grafik kümelerini bulunan FindClusters(3'ü bulmak zorunda kalan) ile karşılaştırın. "Bac" ın oldukça merkezi olduğunu ve "aad" nin 3B çizimdeki küme 1'e karşılık gelen yeşil kümeye ait olabileceğini görebiliriz.

Grafik verileri

İşte kenar listesi nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

Siteye Hoşgeldiniz! Sadece bir çift açıklama: Kod hangi dildir? (ek olarak açıklanmamıştır). Nasıl tanımlıyorsunuz relationship between the variables (correlation)?
ttnphns

Bu ilginç. Ne yazık ki, Mathematica bilmiyorum (ve düzenleme mesafesine daha az aşinayım), bu yüzden anladığımdan emin olmak için bununla oynamam gerekiyor. Henüz bir şansım olmadı ama yakında niyetim var.
gung - Monica'yı eski durumuna döndürün

@gung R'de yapmayı düşünüyordum ama önemli kısmın 3D çizim olduğunu ve kümelerin oluşumu hakkında bir fikir edinmek için dik açılarda döndürdüğünü düşündüm. Bu arada iyi bir soru!
Anton Antonov

Burada "kümeler" var. Ama anlamlılar mı? Diğer kümelerden daha mı iyi? Konudan, küme 1'in oldukça rastgele olduğunu söyleyebilirim. Peki bu neden bir küme?
QUIT - Anony-Mousse

1
Rastgele düzgün (!) Üretilen verilerin açıkça kümeleri olmamalıdır. "Topluluk" grafiği yanıltıcıdır çünkü mesafeleri korumaz. 1 mesafeli grafik bu sorunları vurgular. Ayrıca böyle bir örnek daha gösterir cda. Üzgünüm, bu "kümeleri" satın almıyorum. Veriler aynıdır, kümeleri olmamalıdır .
QUIT - Anony-Mousse

2

@ttnphns'ın çiftli ve çok değişkenli birliktelik hakkındaki noktası iyi alınmıştır. Bununla ilgili olarak, eski, çok değişkenli bir çerçeveye girmeden önce basit metriklerle ilişki göstermenin önemini gördü. Başka bir deyişle, basit ikili ilişki ölçütleri ilişki göstermezse, çok değişkenli ilişkilerin de herhangi bir şey göstermesi pek olası değildir. "İmkansız" kelimesini kullanma konusundaki isteksizlik nedeniyle "gittikçe düşük" diyorum. Buna ek olarak, sıralı veriler için monotonik bir Spearman korelasyonu olsun, kullanılan metriğe göre agnostikim, Somer's D , Kendall's Tau, polikrik korelasyon, Reshef'in MIC'i, Szelkey'in mesafe korelasyonu, neyse. Bu tartışmada metrik seçimi önemli değildir.

Kategorik bilgilerde gizli yapı bulmak için yapılan orijinal çalışma 50'li yılların başlarına ve Columbia sosyoloğu Paul Lazersfeld'e kadar uzanıyor. Esasen, o zamandan beri kapsamlı bir gelişme ve modifikasyon görmüş bir gizli değişken modelleri sınıfı icat etti. Birincisi, C politik iktisatçısı U'nun James Coleman'ın gizli seçmen seçim eğilimleri üzerine yaptığı 60'lı çalışmalarla, ardından MELISSA yazılımı halka açık ilk gizli sınıf yazılımı olan sosyolog olan geç Clifford Clogg'un katkıları geldi.

80'lerde gizli sınıf modelleri, sadece kategorik bilgilerden İstatistiksel Yeniliklerden Latent Gold gibi araçların geliştirilmesi ile sonlu karışım modellerine genişletildi. Buna ek olarak, bir pazarlama bilimcisi olan Bill Dillon, gizli ayrımcı sonlu karışım modellerini uydurmak için bir Gauss programı geliştirdi. Kategorik ve sürekli bilgi karışımlarını uydurmaya yönelik bu yaklaşım hakkındaki literatür aslında oldukça geniştir. En yaygın olarak uygulandığı alanların dışında iyi bilinmemektedir, örneğin, bu modellerin tüketici segmentasyonu ve kümelenmesi için kullanıldığı pazarlama bilimi.

Bununla birlikte, gizli kümelenme ve beklenmedik durum tablosu analizine yönelik bu sonlu karışım modeli yaklaşımları günümüzün büyük veri dünyasında eski okul olarak kabul edilmektedir. Çok sayıda beklenmedik durum tablosu arasında ilişki bulma konusunda son teknoloji, David Dunson ve Duke'daki diğer Bayesianlar tarafından geliştirilenler gibi tensör modellerinin dağıtılmasından elde edilen ayrışmalardır. İşte makalelerinden birinden özet ve bir bağlantı:

Beklenmedik tablo analizi rutin olarak log lineer modellere dayanmaktadır ve gizli yapı analizi ortak bir alternatif sunmaktadır. Gizli yapı modelleri, çok değişkenli kategorik veriler için olasılık kütle fonksiyonunun düşük dereceli bir tensör çarpanlarına ayrılmasına neden olurken, log lineer modeller, azlık yoluyla boyutsal küçülme sağlar. İki paradigmada bu boyutsallık azalması kavramları arasındaki ilişki hakkında çok az şey bilinmektedir. Bir log-lineer modelin ilişkili olasılık tensörünün negatif olmayan derecesine desteğiyle ilgili çeşitli sonuçlar elde ettik. Bu bulguları motive ederek, mevcut PARAFAC ve Tucker ayrışımlarını köprüleyen ve çok değişkenli kategorik verileri eşzamanlı olarak karakterize etmek için daha esnek bir çerçeve sağlayan yeni bir daraltılmış Tucker tensor ayrıştırması sınıfı öneriyoruz.

https://arxiv.org/pdf/1404.0396.pdf


Bu ilginç bir bilgi. Soruya nasıl bağlandığı konusunda net değilim.
gung - Monica'yı eski

gung Kategorik veri kümelerinin "var olup olmadığına" dair geniş kapsamlı tartışmalar ve ortaya atılan temel sorular göz önüne alındığında, katkımın alaka düzeyine ilişkin netlik eksikliğiniz şaşırtıcıdır. Bana göre, sağlanan bilgiler daha önce göz ardı edilen metodoloji ve bilgi keşfi alanlarını aydınlatır. Ayrıca, daha basit düzeyde bir ilişkinin yokluğunda, ikili ilişkiden çok değişkenli birliğe sıçramaya ilişkin ilk gözlemim - açıkça OP'ye sorulan soru - da işaret edebilir miyim?
Mike Hunter

Herhangi bir suç demek istemedim, @DJohnson. Ben (biraz) kategorik verileri kümelemek için (yani gizli sınıf analizi) bilinen w / gizli modellerim. Benim kendisine ima yorumun üstünde. Tarih, araştırmacılar ve yazılımlar kadar tanıdık değildim. Bu ilginç. Değişkenlerin herhangi bir ilişki göstermediği nominal verilerde saptanabilir kümeler olup olmadığı sorusuna nasıl cevap verdiğini tam olarak göremiyorum. Eğer bu şekilde elde ediyorsanız, bir örnek yardımcı olacaktır. Bir tane sağlayabilir misiniz?
gung - Monica'yı eski

@gung Elbette hayır ve hiçbiri alınmadı.
Mike Hunter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.