«clustering» etiketlenmiş sorular

Küme analizi, sınıf etiketleri gibi önceden var olan bilgileri kullanmadan, verileri karşılıklı "benzerliklerine" göre nesnelerin alt kümelerine bölme görevidir. [Kümelenmiş standart hatalar ve / veya küme örnekleri bu şekilde etiketlenmelidir; onlar için "kümeleme" etiketini KULLANMAYIN.]

4
K-araçlarının bir uygulamasını nasıl test edersiniz?
Feragatname: Bu soruyu Stackoverflow'a gönderdim, ancak belki de bu platform için daha uygun olduğunu düşündüm. Çok boyutlu veri kümeleri için kendi k-araç uygulamanızı nasıl test edersiniz? Veriler üzerinde zaten var olan bir uygulamayı (yani Matlab) çalıştırmayı ve sonuçları algoritmamla karşılaştırmayı düşünüyordum. Ancak bu, her iki algoritmanın da kabaca aynı olandan …

2
Çok çarpık, sayım verilerinin kümelenmesi: devam etmek için herhangi bir öneri (dönüşüm vb.)?
Temel problem İşte benim temel sorun: Sayıları ile çok çarpık bazı değişkenler içeren bir veri kümesini kümelenmeye çalışıyorum. Değişkenler çok sayıda sıfır içerir ve bu nedenle kümeleme prosedürüm için çok bilgilendirici değildir - k-ortalama algoritması olması muhtemeldir. Güzel, sadece değişkenleri kare kök, kutu cox veya logaritma kullanarak dönüştürün. Ancak değişkenlerim …

1
Bir U-Matrix otomatik olarak nasıl kümelenir?
Kendi kendini organize eden bir haritayı eğittikten sonra, U-Matrix hesaplanabilir . Manuel olarak görselleştirmek ve kümeleri tanımlamak için bazı araçlar vardır , ancak bu işlemi otomatik olarak yapmak için herhangi bir algoritma olup olmadığını merak ediyorum (yani kümeleri tanımlamak için şekle bakan bir insanın olmaması). Bunu yapmanın bir yolu var …

3
Kategorik değişkenlerin popüler veya yaygın kombinasyonlarını bulmak için kullanabileceğim istatistiksel yöntemler nelerdir?
Çoklu uyuşturucu kullanımı üzerine bir çalışma yapıyorum. Her biri kötüye kullandıkları ilaçları belirten 400 uyuşturucu bağımlısının veri setim var. 10'dan fazla ilaç var ve bu nedenle büyük olası kombinasyonlar var. İkili değişkenler olarak tükettikleri ilaçların çoğunu kodladım (yani bir uyuşturucu bağımlısı eroini başka istismar ederse eroin 1'dir). 2 veya 3 …

1
TF-IDF logaritmasında logaritma kullanımını anlama
Ben okuyordum: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ama formülün neden böyle inşa edildiğini tam olarak anlayamıyorum. Ne Anlıyorum: iDF bir düzeyde belgelerin her birinde S teriminin ne sıklıkta göründüğünü ölçmeli ve terim daha sık göründükçe değeri düşmelidir. Bu açıdan iDF(S)=# of Documents# of Documents containing SiDF(S)=# of Documents# of Documents containing S iDF(S) = …

3
“R” de grafik kümelemeye yaklaşım ve örnek
'R' grafik kümeleme kullanarak bir grafikte düğüm / birleştirme düğümleri arıyorum. İşte benim sorunumun şaşırtıcı bir oyuncak varyasyonu. İki "küme" vardır Kümeleri birbirine bağlayan bir "köprü" var İşte bir aday ağı: Bağlantı mesafesine baktığımda, "hopcount", eğer isterseniz, o zaman aşağıdaki matrisi alabilirim: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), …

1
GAP istatistiğini nasıl yorumlamalıyım?
R'deki k kümelerini tahmin etmek için GAP istatistiğini kullandım. Ancak iyi yorumlayıp yorumlamadığımdan emin değilim. Yukarıdaki tablodan 3 küme kullanmam gerektiğini varsayıyorum. İkinci grafikten 6 küme seçmeliyim. GAP istatistiği doğru yorumlanıyor mu? Herhangi bir açıklama için minnettar olurum.
10 clustering 


2
Parametrik olmayan kümeleme için PyMC: Gauss karışımının parametrelerini tahmin etmek için Dirichlet işlemi kümelenemiyor
Sorun kurulumu PyMC'yi uygulamak istediğim ilk oyuncak sorunlarından biri parametrik olmayan kümelenmedir: bazı veriler verildiğinde, Gauss karışımı olarak modelleyin ve kümelerin sayısını ve her kümenin ortalamasını ve kovaryansını öğrenin. Bu yöntem hakkında bildiklerimin çoğu, Michael Jordan ve Yee Whye Teh'in 2007'den beri (seyreklik öfke haline gelmeden önce) ve son birkaç …

3
Nüfus r-kare değişiminde güven aralığı nasıl elde edilir
Basit bir örnek uğruna iki doğrusal regresyon modeli olduğunu varsayalım. Model 1 sahiptir üç belirleyicileri x1a, x2bvex2c Model 2, model 1'den üç öngörücüye ve iki ek öngörücüye sahiptir x2avex2b Kitle varyansı olduğu açıklanmıştır nüfus regresyon denklemi vardır Model 1 için ve Model 2 için artan varyans nüfus içinde Model 2 …

2
Sabit bir mesafedeki nokta sayısını en üst düzeye çıkaran bilinen sayıda daire merkezi bulma
Belirtilen mesafe ( ) içindeki toplam nokta sayısını en üst düzeye çıkaran belirli sayıda daire merkezinin ( ) merkezlerini bulmak istediğim 2-D veri setim var .RNNNRRR örneğin 10.000 veri var ve yarıçapında olabildiğince çok nokta yakalayan dairelerinin merkezlerini bulmak istiyorum . 10'luk 5 merkez ve yarıçap, verilerden türetilmeden önceden verilmiştir.N …
10 r  clustering  distance 

1
Düşük siluet genişlikleri verinin altta yatan yapıya sahip olmadığı anlamına mı geliyor?
Dizi analizinde yeniyim ve Optimal Eşleştirme tabanlı benzerlik matrislerinin küme analizlerinden ortalama siluet genişlikleri (ASW) düşükse (yaklaşık 25) nasıl tepki verdiğinizi merak ediyordum. Dizilerin kümelenmesini sağlayacak altta yatan küçük bir yapı olduğu sonucuna varmak uygun görünebilir mi? Diğer küme kalitesi ölçülerine dayalı olarak düşük ASW'yi yok sayabilir misiniz (aşağıda bazılarını …

1
Anova () ve drop1 () neden GLMM'ler için farklı cevaplar verdi?
Formun bir GLMM var: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kullandığımda , araç paketinden veya drop1(model, test="Chi")kullandığımdan farklı sonuçlar alıyorum . Bu son ikisi aynı cevapları verir.Anova(model, type="III")summary(model) Bir grup uydurma veri kullanarak, bu iki yöntemin normalde farklı olmadığını gördüm. Dengeli doğrusal …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Birinci mertebe Markov zincirlerinin kümelerinin değerlendirilmesi
Birkaç bin birinci dereceden Markov zincirinin veri setini yaklaşık 10 kümeye kümeledim. Bu kümeleri nasıl değerlendirebileceğim ve kümelerdeki öğelerin neler paylaştığını ve diğer kümelerden nasıl farklılaşabileceğini nasıl öğrenebileceğim konusunda önerilen bir yol var mı? Böylece, "A kümesindeki süreçler, oraya ulaştıklarında Y durumunda kalmaya eğilimlidirler, bu da diğer kümelerdeki süreçler için …

1
Dendrogram kümelemesi için kojenetik korelasyon hakkında
Bir dendrogram kümelemesi bağlamını düşünün. Bireyler arasındaki mesafeleri orijinal farklılıklar olarak adlandıralım . Dendrogramı oluşturduktan sonra, iki birey arasındaki kojenetik farklılığı , bu bireylerin ait olduğu kümeler arasındaki mesafe olarak tanımlarız . Bazı insanlar, orijinal farklılıklar ile kojenetik farklılıklar ( kofenetik korelasyon olarak adlandırılır) arasındaki korelasyonun , sınıflandırmanın "uygunluk endeksi" …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.