Boyuna değişkenler nasıl kümelenir?


10

0'dan 7. güne kadar uzunlamasına veriler içeren bir grup değişkenim var. Bu uzunlamasına değişkenleri (vakalar değil) farklı gruplara kümeleyebilen uygun bir kümeleme yaklaşımı arıyorum. Bu veri kümesini ayrı ayrı analiz etmeye çalıştım, ancak sonucun makul bir şekilde açıklanması oldukça zordu.

Bir SAS prosedürünün kullanılabilirliğini araştırdım PROC SIMILARITYçünkü web sitesinde bir örnek var ; ancak bunun doğru bir yol olmadığını düşünüyorum. Önceki bazı çalışmalarda her zaman noktasında açımlayıcı faktör analizi kullanılmıştır, ancak bu mantıksız sonuçlar nedeniyle çalışmamda da bir seçenek değildir.

Umarım burada bazı fikirler verilebilir ve SAS veya R gibi derlenmiş bir program işlenebilir. Herhangi bir öneri takdir !!


Kısa bir örnek (veri ve değişken adları arasındaki tutarsız konum için özür dileriz):

id time   V1  V2   V3   V4   V5   V6   V7   V8   V9   V10
2    0    8    7    3    7    6    6    0    0    5    2
2    1    3    5    2    6    5    5    1    1    4    2
2    2    2    3    2    4    4    2    0    0    2    2
2    3    6    4    2    5    3    2    1    2    3    3
2    4    5    3    4    4    3    3    4    3    3    3   
2    5    6    4    5    5    6    3    3    2    2    2
2    6    7    5    2    4    4    3    3    4    4    5
2    7    7    7    2    6    4    4    0    0    4    3
4    0   10    7    0    2    2    6    7    7    0    9
4    1    8    7    0    0    0    9    3    3    7    8
4    2    8    7    0    0    0    9    3    3    7    8
4    3    8    7    0    0    0    9    3    3    7    8
4    4    5    7    0    0    0    9    3    3    7    8
4    5    5    7    0    0    0    9    3    3    7    8
4    6    5    7    0    0    0    9    3    3    7    8
4    7    5    7    0    0    0    9    3    3    7    8
5    0    9    6    1    3    2    2    2    3    3    5
5    1    7    3    1    3    1    3    2    2    1    3
5    2    6    4    0    4    2    4    2    1    2    4
5    3    6    3    2    3    2    3    3    1    3    4
5    4    8    6    0    5    3    3    2    2    3    4
5    5    9    6    0    4    3    3    2    3    2    5
5    6    8    6    0    4    3    3    2    3    2    5
5    7    8    6    0    4    3    3    2    3    2    5

Verileri biraz daha açıklayabilir misiniz, yoksa kısaltılmış bir örnek verebilir misiniz? "Değişkenlerin uzunlamasına veriler içerdiğini" söylediğinizde, bunların hepsi aynı kişi veya şey üzerinde 7 gün boyunca tekrarlanan ölçümler olduğu anlamına gelir (ve bu nedenle ilişkilendirilmesi muhtemeldir).
rosser

Rosser'a: Verilerin bir kısmını ekledim. Bahsettiğiniz gibi, bunlar tekrarlanan ölçümlerdir: her hastanın (ID) birkaç gün (gün0 ~ gün7) süren 10 ölçümü (V1 ~ V10) vardır.
cchien

Yanıtlar:


5

R Hmiscpaketinde curveRep, "temsili eğriler" anlamına gelen işlevin yardım dosyasına bakın . curveRepeğri şekilleri, konumları ve eksik zaman noktalarının kalıpları üzerindeki kümeler.


Tavsiyeniz için teşekkürler. Kulağa yapılabilir geliyor. El kitabını hemen okuyacağım.
cchien

Frank. Kılavuzdaki örnek çalışmıyor gibi görünüyor. Yazım hatası var mı? Bunu hissetmek için örneği çalıştırmak istedim. İşte kod: set.seed (1) N <- 200 nc <- örnek (1:10, N, TRUE) id <- rep (1: N, nc) x <- y <- id (i in 1: N) {x [id == i] <- eğer (iy [id == i] <- i + 10 * (x [id == i] - .5) + runif (nc [i], - 10, 10)}
B_Miner

1
Whoops. R yardım dosyasındaki bir yüzde işaretinin kaçması gerektiğini unuttum. Bu, örnekteki bir satırın kesilmesine neden oldu. Eksik çizgiyi şununla değiştirin: x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
Frank Harrell

Emin değilim ne "p: kümeleme için her eğri değerlendirmek için puan sayısı" eğrisiRep (x, y, id, kxdist = 2, p = 10)
0:04

1
p>3p=10p

5

Aradığın şey olduğundan emin değilim, ancak kmlR'deki paket , tekrarlanan önlemlerin dizilerini kümelemek için k-araçlarını kullanıyor. İşte paket sayfasına ve kağıda bir bağlantı (ne yazık ki, geçitlidir). Yalnızca oldukça küçük bir veri kümeniz (birkaç yüz dizi) varsa iyi çalışır.

İşte makalenin geçitsiz bir sürümü (referans sorunları olmadan): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf


Aslında bu soruyu göndermeden önce bu yöntemi inceledim. Kml yaklaşımının, bireyleri orijinal makalesinin bazı örneklerinden gruplamak için bir küme yolu olduğunu varsaydım. Tekrar bakacağım. Teşekkürler!!
cchien

@ccchien evet, tek tek yörüngeleri birlikte kümelemek için kullanırlar, ancak her bir kişi için on yörünge (her bir değişkeniniz için bir tane) olduğunu varsayabilirsiniz. Kml prosedürünün düzgün çalışması için muhtemelen değişkenlerinizi normalleştirmeniz gerekir. Sorun şu ki, bildiğim kadarıyla, kml'ye yörüngelerinizin bireylerde iç içe olduğunu söylemenin bir yolu yok. Böylece, elde etmeye çalıştığınız şeye tam olarak uymayabilir.
Antoine Vernet

@ greg121, makalenin serbestçe kullanılabilen sürümüne bağlantı için teşekkürler. Metin içi referanslar bırakılmış gibi görünüyor, belki de Lateks dosyası bir kez daha yeniden derlenmelidir (referans listesi var).
Antoine Vernet

@AntoineVernet evet, haklısın. Ama başka bir sürüm bulamadım
greg121

4

Yani, aynı n bireyde her t kez ölçülen p değişkeniniz var . Devam etmenin bir yolu, t pXp (dis) benzerlik matrislerini hesaplamak ve INDSCAL-model Çok Kademeli Ölçeklemeyi uygulamaktır. Size iki düşük boyutlu harita verecektir (2 boyutlu). İlk harita göstermektedir koordinatları arasında p boyutlarının alan değişkenler ve eğer varsa, bunların arasında gruplarını gösterir. İkinci harita, t'nin her matrisindeki boyutların ağırlıklarını (yani önem veya çıkıntı) gösterir .

resim açıklamasını buraya girin


Ayrıca n-boyutu 2-boyuta dönüştürme fikrim var, ama sadece bunu başarabilir belirli bir yöntem hakkında hiçbir fikrim yok. Şimdi SAS'ın bunu uygulayabilecek bir prosedürü olabileceğini buldum. Verilerimi kullanırken kullanılabilirliğini görmeyi öğreneceğim.
cchien

Ağırlıkları yorumlamanın en iyi yolu nedir?
Ming K

Ağırlık, bu özel kaynak için bir boyutun ne kadar alakalı veya ayrımcı olduğunu gösterir (kaynaklar bireydir veya bu örnekteki gibi). Zaman1 için resimde, örneğin, boyut II güçlü veya konuyla ilgilidir ve boyut I zayıftır.
11:36
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.