Düşük siluet genişlikleri verinin altta yatan yapıya sahip olmadığı anlamına mı geliyor?


10

Dizi analizinde yeniyim ve Optimal Eşleştirme tabanlı benzerlik matrislerinin küme analizlerinden ortalama siluet genişlikleri (ASW) düşükse (yaklaşık 25) nasıl tepki verdiğinizi merak ediyordum. Dizilerin kümelenmesini sağlayacak altta yatan küçük bir yapı olduğu sonucuna varmak uygun görünebilir mi? Diğer küme kalitesi ölçülerine dayalı olarak düşük ASW'yi yok sayabilir misiniz (aşağıda bazılarını yapıştırdım)? Veya dizi analizi veya sonraki küme analizleri sırasında yapılan seçimlerin düşük ASW sayılarından sorumlu olması muhtemel mi?

Herhangi bir öneriniz takdir edilecektir. Teşekkürler.

Daha fazla içeriğe ihtiyaç duyulması durumunda:

20'li yaşlarındaki insanlar arasında 624 sıra çalışma saati uyuşmazlığını (yani, bir kişinin bir haftada çalışmayı tercih ettiği saat ile gerçek çalıştığı saat sayısı arasındaki uyumsuzluklar) inceliyorum. İncelediğim tüm sekansların uzunluğu 10'dur. Sekans nesnemin beş durumu vardır (M = daha fazla saat istiyor, S = aynı saat istiyor, F = daha az saat istiyor, O = işgücü dışında ve U = işsiz ).

ASW sonuçlarının farklı yaklaşım kombinasyonlarıyla nasıl değiştiğine dair sistematik bir muhasebe yapmadım. Yine de, düşük ve orta indel maliyetleri (maksimum ikame maliyetinin .1 ve .6'sı - olayların zamanlamasından ziyade sırasını daha fazla önemsiyorum) ve farklı kümeleme prosedürlerini (koğuş, ortalama ve pam) denedim. Genel izlenimim ASW sayılarının düşük kalması.

Belki de düşük ASW sonuçları mantıklıdır. Bu devletlerin çeşitli farklı düzenlerde gelmesini beklerdim ve devletler tekrarlanabilir. Yinelenen gözlemlerin kaldırılması, N'yi 624'ten 536'ya düşürür. Verilerin incelenmesi, gerçekten çok farklı olduğunu düşündüğüm çok çeşitli çeşit ve dizilerin olduğunu ortaya çıkarır, örneğin, aynı saat boyunca isteyen, uyumsuzluk geliştiren, çözülen bir uyumsuzluk ve uyumsuzluk ile uyumsuzluk arasında ileri geri salınmıştır. Belki de açıkça farklılaşmış kümelerin eksikliği, ilginç varyasyon eksikliği ile aynı şey değildir. Yine de, zayıf küme sonuçları, dizileri özetlemek için iyi bir yol bırakmadan beni terk ediyor gibi görünüyor.

Ward'ın indel değeri 2 olan ikame maliyetinin .1'ine ayarlanmış yönteminden elde edilen sonuçlar Bu istatistikler, 6 küme çözümünün iyi olabileceğini düşündürmektedir. Ancak ASW düşüktür - en azından makul sayıda kümeye sahip çözümler için (2 veya 3 çok azdır).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

Yanıtlar:


11

ASW, bir kümeleme çözümünün tutarlılığının bir ölçüsüdür. Yüksek ASW değeri, kümelerin homojen olduğu (tüm gözlemler küme merkezine yakındır) ve iyi ayrıldıkları anlamına gelir. Kaufmann ve Rousseuw'a (1990) göre, 0.25'in altındaki bir değer, verilerin yapılandırılmadığı anlamına gelir. 0.25 ve 0.5 arasında, veriler yapılandırılmış olabilir, ancak bir yapay yapı da olabilir. Bu değerlerin gösterge niteliğinde olduğunu ve bir karar eşiği olarak kullanılmaması gerektiğini lütfen unutmayın. Bu değerler teorik olarak tanımlanmamıştır (bazı p değerlerine dayanmamaktadır) ancak yazarların deneyimlerine dayanmaktadır. Bu nedenle, bu düşük ASW değerlerine göre, verileriniz oldukça yapılandırılmamış gibi görünüyor. Küme analizinin amacı yalnızca açıklayıcıysa, en belirgin modellerin bazılarını (ancak sadece bazılarını) ortaya çıkardığını iddia edebilirsiniz. Ancak,

"Küme başına" ASW değerlerine de bakmayı deneyebilirsiniz (bu işlev tarafından verilir wcClusterQuality). Belki bazı kümeleriniz iyi tanımlanmış ve bazıları "sahte" (ASW <0) olabilir ve bu da toplam ASW değerinin düşük olmasına neden olur.

Size daha iyi bir ipucu vermesi gereken önyükleme stratejilerini kullanmaya çalışabilirsiniz. R'de, clusterbootpaketteki işlev fpcbu amaç için kullanılabilir (yardım sayfasına bakın). Ancak, ağırlıklı verilerle çalışmaz. Verileriniz ağırlıksızsa, bunu denemeye değer olduğunu düşünüyorum.

Son olarak, verilerinize ve kategorizasyonunuza daha yakından bakmak isteyebilirsiniz. Belki kategorileriniz çok kararsızdır veya iyi tanımlanmamıştır. Ancak, burada böyle görünmüyor.

Söylediğiniz gibi, "açıkça farklılaşmış kümelerin eksikliği, ilginç varyasyon eksikliği ile aynı şey değildir". Dizilerinizin değişkenliğini analiz etmek için tutarsızlık analizi gibi başka yöntemler de vardır. Bu yöntemler, diziler ve açıklayıcı faktörler arasındaki bağlantıları incelemenizi sağlar. Örneğin, dizi regresyon ağaçları oluşturmayı deneyebilirsiniz (TraMineR paketinde "seqtree" işlevi).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.