Boyuna veriler arasında gruplar (yörüngeler) nasıl bulunur?


11

bağlam

Soruyu biraz genişletmeden önce sahneyi ayarlamak istiyorum.

Boylamsal verilerim var, yaklaşık 3 ayda bir deneklerde yapılan ölçümler, birincil sonuç 5 (14) aralığında sayısal (sürekli 1dp'de olduğu gibi), toplu (tüm veri noktalarının) 7 ile 10 arasında. spagetti arsa (x ekseni üzerinde yaş ve her kişi için bir çizgi ile)> 1500 deneklere sahip olduğum için açıkça bir karmaşa var, ancak artan yaşla daha yüksek değerlere açık bir sırt var (ve bu biliniyor).

Daha geniş soru: Yapmak istediğimiz şey, öncelikle trend grupları (yüksek başlayan ve yüksek kalanlar, düşük başlayan ve düşük kalanlar, düşük başlayan ve yüksek olanlara vb.) Tanımlayabilmektir ve sonra 'trend grubu' üyeliği ile ilişkili bireysel faktörlere bakın.

Buradaki sorum özellikle birinci kısma, trendlere göre gruplandırmaya ait.

Soru

  • Bireysel boyuna yörüngeleri nasıl gruplayabiliriz?
  • Bunu uygulamak için hangi yazılım uygun olabilir?

SAS ve M-Plus'taki bir meslektaşım tarafından önerilen Proc Traj'a baktım, ancak baktığım, ancak başkalarının düşüncelerinin bu konuda ne olduğunu bilmek istiyorum.


1
Bu sadece bir başlangıç ​​noktası, ancak belki de bu sorunun yanıtlarından bazılarına göz atın
Jeromy Anglim

Teşekkürler Jeromy, kml seçeneği ilginç, R'de verilen fikri beğendim, ancak 'ziyaret 1' yerine aksine ziyaretler için farklı yaşlarda gelen konular verisini çerçevelerimle kullanabileceğimden emin değilim. 2 'vs ziyaret ve bazı 10 ziyaret ederken diğerleri 50 + ...
nzcoops

kml Paketi kontrol et - ihtiyacınız olan işlevselliği sağlıyor gibi görünüyor. JoSS'deki kağıt bunu ayrıntılı olarak açıklar. Ayrıca kml3d& kmlShapeilgi olabilir.
radek

Yanıtlar:


11

Ben kullandım Mfuzz içinde R zaman ders mikroarray veri setleri Kümeleme için. Mfuzz "yumuşak kümeleme" kullanır. Temel olarak, bireyler birden fazla grupta görünebilir.

@Andy'nin yorumda belirttiği gibi, orijinal makalede CTN verileri kullanılmaktadır. Ancak, ayrık verileriniz için düzgün çalışması gerektiğinden şüpheleniyorum. Özellikle veri setini araştırdığınız için. İşte R'de kısa bir örnek:

##It's a bioconductor package
library(Mfuzz)
library(Biobase)

## Simulate some data
## 6 time points and 90 individuals
tps = 6;cases = 90
d = rpois(tps*cases, 1)  ##Poisson distribution with mean 1
m = matrix(d, ncol=tps, nrow=cases)

##First 30 individuals have increasing trends
m[1:30,] = t(apply(m[1:30,], 1, cumsum))

##Next 30 have decreasing trends
##A bit hacky, sorry
m[31:60,] = t(apply(t(apply(m[31:60,], 1, cumsum)), 1, rev))

##Last 30 individuals have random numbers from a Po(1)

##Create an expressionSet object
tmp_expr = new('ExpressionSet', exprs=m)

##Specify c=3 clusters
cl = mfuzz(tmp_expr, c=3, m=1.25)
mfuzz.plot(tmp_expr,cl=cl, mfrow=c(2, 2))

Aşağıdaki grafiği verir:

Mfuzz kümeleme


Referans için teşekkürler, daha önce bununla karşılaşmamıştım. Bu kümeleme algoritması, OP'nin belirttiği gibi düşük sayıdaki dağıtılmış verilerle (veya ikilik verilerle) uygun mu? Referans kağıdı (Futschik ve Carlisle 2005), verilerin sürekli olarak dönüştürülmesini sağlamıştır.
Andy W

@Andy: İyi nokta. Hızlı bir simülasyon ekledim. Her şey yolunda görünüyor, ancak daha uygun bir çözüm olabilir.
csgillespie

Teşekkürler @csgillespie, bunu denemek için bakacağız. Bu arada, verilerim sürekli değil, sorunun yeterince net olmadığından mı yoksa cevabınızdaki bir yazım hatası mı olduğundan emin değil misiniz? Mfuzz'ı yüklemek için R'imi geri almalıyım, eğlence başlasın.
nzcoops

@csgillespie - bu çok havalı. Şu anda bazı gerçek veriler üzerinde oynuyorum. Grup sayısını tahmin etmenin bir yolu olup olmadığını biliyor musunuz?
Makro

4

İhtiyacınız olanı yapmak için bir MPLUS paketi olmasını beklerdim. Psikometrika'da neredeyse tam olarak bu konuda bir makale var

springerlink.com/content/25r110007g417187

ancak veriler ikili ve yörüngeler olasılık yörüngeleridir. Yazarlar, yörüngeleri gruplandırmak için gizli sınıf analizi (cezalandırılmış bir sonlu karışım modeli kullanılarak uygulanır) kullanırlar. İlk yazarın Bengt Muthen (MPLUS'ın yaratıcısı) ile benzer ortamlarda (yörüngelerle) gizli sınıf analizi hakkında 10 yıl önce başka makaleler yazdığını da biliyorum. Örneğin,

http://onlinelibrary.wiley.com/doi/10.1111/j.0006-341X.1999.00463.x/abstract

sonuç ikili olduğu dışında, konuştuğunuza çok benziyor. Sürekli vaka çok daha basittir, bu yüzden daha doğru bir şekilde tanımladığınız şeyle eşleşen bir şey bulmak için geriye dönük bir literatür taraması yapardım (yani bu makalelerin referans aldığı makalelere bakın).

Daha fazla bilgi için, MPLUS sahiplerine ihtiyacınız olanı yapmak için hangi paketi kullanmanız gerektiğini doğrudan sorabilirsiniz. Genellikle yanıt vermek oldukça hızlıdır ve çok yardımcıdır:

http://www.statmodel.com/cgi-bin/discus/discus.cgi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.