Mat_pages [] öğesinin sütunlarda (kümelemek istediğiniz) sayfalar ve satırlardaki bireyleri içerdiğini varsayalım. Aşağıdaki komutu kullanarak sayfaları tek tek verilere göre Rby'de kümelendirebilirsiniz:
pc <- prcomp(x=mat_pages,center=TRUE,scale=TRUE)
Yükleme matrisi, verilerin SVD ayrışmasının özvektörlerinin matrisidir. Puanların hesaplanmasında her SAYF'ın nispi ağırlığını verir. Daha büyük mutlak değerlere sahip yükler, karşılık gelen prensip bileşeninin puanının belirlenmesinde daha fazla etkiye sahiptir.
Bununla birlikte, sayfaların kümelenmesi için PCA kullanmanın kısa süresine de dikkat etmem gerekir . Bunun nedeni, yüklerin aslında PAGE içeriğinden mi yoksa başka bir sebepten mi (teknik veya bireysel bir değişiklik olabilir) bağımsız olarak, PAGE'ye yüksek değişkenlik gösteren daha büyük ağırlıklar vermesidir. Yüklemeler, esas olarak ilgilendiğiniz (belki de) gruplar arasındaki gerçek farklılıkları yansıtmaz. ANCAK, bu kümelenme, tüm sayfaların aynı varyansa sahip olduğu varsayımıyla gruptaki farklılıkları yansıtıyor (bunun geçerli bir varsayım olup olmadığını bilmiyorum).
Eğer güçlü bir bilgi işlem imkanınız varsa (veri boyutunuza göre mümkün olabilir) - hiyerarşik modelleri kullanmak iyi bir fikir olabilir. R'de lme4 paketi kullanılarak yapılabilir.
Skorları aldıktan sonra ne yaparsın?
Bu kaba bir öneridir ve analiz büyük ölçüde verilerin nasıl göründüğüne bağlıdır. Ayrıca, bu işlemin sahip olduğunuz büyüklükteki verileri gruplandırmakta oldukça mümkün olacağını tahmin ediyorum.
pc.col <- paste("page", 1:27000, sep=".")
pdf("principle-components.pdf")
plot(pc$x[,1:2]) ## Just look at the 1st two loadings (as you can see the groupings in a plane)
dev.off()
Umarım, bu size verinin nasıl gruplandırıldığının bir resmini verebilir.
Uyarı: bu benim önereceğim şey değil.
Benim önerim:
Bunlar gibi problemler genomiklerde sıklıkla ortaya çıkmaktadır. Davanızda sayfalarınız genlere karşılık gelir ve bireyler hastalara karşılık gelir (temelde bireyler genomiklerle aynı anlama gelir)
Sayfaları verilere göre kümelemek istiyorsunuz.
R içinde çok fazla kümeleme paketi kullanabilir ve diğer cevaplarda da belirtilmiş olabilir. Paketlerle ilgili temel bir sorun, küme sayısının nasıl belirleneceği hclust gibidir. Benim favorilerimden bazıları:
- pvclust (eğer kümeleri verir ve ayrıca her grup için bir p değeri veren p-değeri istatistiksel olarak anlamlı kümeleri belirleyebilir kullanma.. Sorun : hesaplamalı çok fazla güç gerektirir ve verilerle çalışmak eğer emin değilim senin boyut)
- hopach (Tahmini küme sayısını ve kümeleri verir)
- Bioconductor'da mevcut başka paketler var, lütfen görev görünümünde kontrol edin.
K-means vb. Gibi kümeleme algılarını da kullanabilirsiniz. Bu forumda kümeleme hakkında bir konu gördüm. Cevaplar çok ayrıntılıydı. Doğru hatırlamam, Tal Galili tarafından istendi.