«clustering» etiketlenmiş sorular

Küme analizi, sınıf etiketleri gibi önceden var olan bilgileri kullanmadan, verileri karşılıklı "benzerliklerine" göre nesnelerin alt kümelerine bölme görevidir. [Kümelenmiş standart hatalar ve / veya küme örnekleri bu şekilde etiketlenmelidir; onlar için "kümeleme" etiketini KULLANMAYIN.]


2
Hiyerarşik kümeleme için doğru bağlantı yöntemini seçme
Ben yapıyorum hiyerarşik kümeleme Google BigQuery'ye üzerinde reddit veri dökümü toplanan ve işlenen ettik verilere. İşlemim şöyle: / R / politics'teki en son 1000 yayını al Tüm yorumları topla Verileri işleyin ve bir n x mveri matrisi hesaplayın (n: kullanıcılar / samples, m: posts / features) Hiyerarşik kümeleme için uzaklık …

1
PCA, bir k-aracı kümeleme analizine nasıl yardımcı olur?
Amaç : Bir kentin yerleşim alanlarını, konut birim yoğunluğu, nüfus yoğunluğu, yeşil alan, konut fiyatı, okul sayısı, okul / sağlık merkezleri / günlük bakım merkezleri gibi sosyal-ekonomik özelliklerine göre gruplandırmak istiyorum. Yerleşim bölgelerinin kaç farklı gruba bölünebileceğini ve bunların benzersiz özelliklerinin neler olduğunu anlamak istiyorum. Bu bilgi şehir planlamasını kolaylaştırabilir. …

3
Uygulamada aglomeratif hiyerarşik kümelenme için hangi durma kriterleri kullanılır?
Her türlü kriteri öneren geniş bir literatür buldum (örneğin Glenn ve diğerleri 1985 (pdf) ve Jung ve diğerleri 2002 (pdf)). Bununla birlikte, bunların çoğu, uygulanması o kadar kolay değildir (en azından benim açımdan). Bir küme hiyerarşisi elde etmek için scipy.cluster.hierarchy kullanıyorum ve şimdi ondan nasıl düz kümeler oluşturacağına karar vermeye …
32 clustering 

3
Uzun bir dizge listesinin (sözcüklerin) benzerlik gruplarında kümelenmesi
Elimde şu problem var: Çok uzun bir kelime listem var, muhtemelen isimler, soyadlar, vs. Bu kelime listesini kümelemeliyim, öyle ki benzer kelimeler, örneğin benzer düzenleme (Levenshtein) mesafeli kelimeler Aynı küme Örneğin, "algoritma" ve "alogrithm" aynı kümede görünmek için yüksek şansa sahip olmalıdır. Örüntü Tanıma literatüründe K-ortalama kümeleme, EM kümeleme gibi …

3
Gizli Sınıf Analizi ve Küme Analizi - çıkarımlardaki farklılıklar?
Gizli sınıf analizinden (LCA) kümelenme analizine karşı çıkarılan çıkarımlardaki farklar nelerdir? Bir LCA'nın sınıflara yol açan temel bir gizli değişken varsaydığı doğru mu, oysa küme analizi kümelenme algoritmasından elde edilen ilişkili özelliklerin ampirik bir açıklaması mı? Sosyal bilimlerde, LCA'nın popülerlik kazandığı ve küme analizinin yapmadığı resmi bir ki-kare anlamlılık testi …

5
Makine öğrenmesinde hiyerarşik / iç içe geçmiş verilerle nasıl baş edilir
Sorunumu bir örnekle açıklayacağım. Bazı nitelikler verilen bir bireyin gelirini tahmin etmek istediğinizi varsayalım: {Yaş, Cinsiyet, Ülke, Bölge, Şehir}. Bunun gibi bir eğitim veri setine sahipsiniz train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Farklı mesafeler ve yöntemler ile elde edilen hiyerarşik kümeleme dendrogramlarının karşılaştırılması
[İlk sıradaki "Hiyerarşik kümelenme ağaçları için benzerliğin ölçülmesi" başlığı daha sonra konuyu daha iyi yansıtacak şekilde @ tnphns tarafından değiştirildi] Hasta kayıtlarının bir veri çerçevesi üzerinde bir dizi hiyerarşik küme analizi yapıyorum (örneğin, http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Ağacın son kümeleri / yapısı / görünümü üzerindeki etkilerini anlamak için farklı uzaklık ölçüleri, farklı …

1
Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması
Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Standart ve küresel k-ortalama algoritmaları arasındaki fark
Standart ve küresel k-ortalama kümeleme algoritmaları arasındaki temel uygulama farkının ne olduğunu anlamak isterim. Her adımda, k-aracı eleman vektörleri ve küme centroidleri arasındaki mesafeleri hesaplar ve ortağı en yakın olan bu kümeye belgeyi yeniden atar. Daha sonra, tüm centroidler yeniden hesaplanır. Küresel k araçlarında, tüm vektörler normalize edilir ve mesafe …

4
R boyutsallığı azaltma nasıl yapılır
Bir (i, j) sayfasının kaç kez bireysel olduğumu söylediğini söyleyen bir matrisim var. 27 bin birey ve 95 bin sayfa var. Sık sık birlikte görüntülenen sayfa kümelerine karşılık gelen sayfalar alanında bir avuç "boyutlar" veya "boyutlar" istiyorum. Nihai hedefim, daha sonra bireysel olarak, boyut 1, boyut 2 vb. Sayfalara giren …

2
İkili ve sürekli değişkenleri kümelemede birlikte nasıl kullanırsınız?
K-araçlarında ikili değişkenleri (0 ve 1 değerleri) kullanmam gerekiyor. Ancak k-aracı sadece sürekli değişkenlerle çalışır. Bazı insanların hala bu ikili değişkenleri k-araçlarında k-araçlarının sadece sürekli değişkenler için tasarlandığı gerçeğini göz ardı ederek kullandığını biliyorum. Bu benim için kabul edilemez. Sorular: Öyleyse, k-means / hiyerarşik kümelemede ikili değişkenleri kullanmanın istatistiksel / …

3
Centroid bulmak, ortalamaları bulmaktan nasıl farklıdır?
Hiyerarşik kümeleme yaparken, kümeler arasındaki mesafeyi ölçmek için birçok ölçüm kullanılabilir. Bu gibi iki ölçüm, merkezlerin ve kümelerdeki veri noktalarının hesaplanmasını ifade eder. Ortalama ve centroid arasındaki fark nedir? Bunlar kümedeki aynı nokta değil mi?
26 clustering  mean 

3
LSA vs. PCA (belge kümeleme)
Belge kümelemede kullanılan çeşitli teknikleri araştırıyorum ve PCA (temel bileşen analizi) ve LSA (gizli anlamsal analiz) ile ilgili bazı şüphelerimi silmek istiyorum. İlk şey - aralarındaki farklar nelerdir? PCA'da SVD ayrışmasının kovaryans matrisine uygulandığını biliyorum, LSA'da ise terim matrisi. Başka bir şey var mı? İkincisi - belge kümeleme prosedüründeki rolü …

1
Calinski ve Harabasz (CH) kriterinin kabul edilebilir bir değeri nedir?
R ve kml paketini kullanarak boylamsal verileri kümelemeye çalışırken veri analizi yaptım . Verilerim yaklaşık 400 ayrı yörünge içerir (makalede adı geçen). Sonuçlarımı aşağıdaki resimde görebilirsiniz: Bölüm 2.2 'yi okuduktan sonra, ilgili makalede "Optimum sayıda küme seçmek", hiçbir cevap alamadım. 3 kümeye sahip olmayı tercih ederdim ama sonuç hala 80'lik …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.