«clustering» etiketlenmiş sorular

Küme analizi, sınıf etiketleri gibi önceden var olan bilgileri kullanmadan, verileri karşılıklı "benzerliklerine" göre nesnelerin alt kümelerine bölme görevidir. [Kümelenmiş standart hatalar ve / veya küme örnekleri bu şekilde etiketlenmelidir; onlar için "kümeleme" etiketini KULLANMAYIN.]

1
Mclust model seçimi
R paketi mclustküme modeli seçimi için bir ölçüt olarak BIC kullanır. Anladığım kadarıyla, en düşük BIC'ye sahip bir model diğer modellere göre seçilmelidir (sadece BIC'yi önemsiyorsanız). Ancak, BIC değerlerinin tümü negatif olduğunda, Mclustişlev varsayılan olarak en yüksek BIC değerine sahip olan modeldir. Çeşitli denemelerden elde ettiğim genel anlayış, mclust"en iyi" …

1
Beklenti Maksimizasyon Açıklama
EM algoritması ile ilgili çok faydalı bir eğitim buldum . Örnek ve öğretici resim sadece parlak. Olasılıkların hesaplanması ile ilgili soru Beklenti maksimizasyonu nasıl çalışır? Öğreticide açıklanan teorinin örneğe nasıl bağlanacağıyla ilgili başka bir sorum var. E aşaması sırasında, EM bir işlev seçer bu alt sınır , her yerde, ve …

3
Newman'ın ağ modülerliği imzalı, ağırlıklı grafikler için çalışıyor mu?
Bir grafiğin modülerliği Wikipedia sayfasında tanımlanır . Bir de farklı bir yazı , biri komşuluk matrisi çünkü bu modüler kolayca ağırlıklı ağlar için hesaplanan (ve maksimize) olabilir açıklandığı hem de değerli bağlarını içerebilir. Bununla birlikte, bunun örneğin -10 ila +10 arasında değişen işaretli, değerli kenarlarla da çalışıp çalışmayacağını bilmek istiyorum. …

1
Küme doğrulaması için bilgi (VI) metriğinin varyasyonunun ardındaki sezgi nedir?
Benim gibi istatistikçi olmayanlar için, VIMarina Melia'nın " Kümelenmeleri karşılaştırmak - bilgiye dayalı bir mesafe " tarafından ilgili makaleyi okuduktan sonra bile metrik (bilgi değişimi) fikrini yakalamak çok zordur (Journal of Çok Değişkenli Analiz, 2007). Aslında, kümelenme şartlarının çoğuna aşina değilim. Aşağıda bir MWE ve kullanılan farklı metriklerde çıktının ne …

2
Kovaryans matrisi oluşturan değişkenler arasındaki mesafeler nelerdir?
Bir kovaryans matrisi var ve hiyerarşik kümeleme kullanarak (örneğin, bir kovaryans matrisi sıralamak için) değişkenleri kümelerine bölümlemek istiyorum .kn × nnxnn \times nkkk Değişkenler arasında tipik bir mesafe işlevi var mı (yani kare kovaryans matrisinin sütunları / satırları arasında)? Ya da daha fazlası varsa, konuyla ilgili iyi bir referans var …

2
Boyuna veriler arasında gruplar (yörüngeler) nasıl bulunur?
bağlam Soruyu biraz genişletmeden önce sahneyi ayarlamak istiyorum. Boylamsal verilerim var, yaklaşık 3 ayda bir deneklerde yapılan ölçümler, birincil sonuç 5 (14) aralığında sayısal (sürekli 1dp'de olduğu gibi), toplu (tüm veri noktalarının) 7 ile 10 arasında. spagetti arsa (x ekseni üzerinde yaş ve her kişi için bir çizgi ile)> 1500 …

4
K-araçlarında optimal k'nin olmadığı durumlar var mı?
Bu en azından birkaç saattir aklımda. Ben k-ortalamalar algoritmasından ( kosinüs benzerlik metriği ile ) çıktı için optimal bir k bulmaya çalışıyordum, bu yüzden çarpıklığı kümelerin sayısının bir fonksiyonu olarak çizdim. Veri setim, 600 boyutlu bir alanda 800 belgeden oluşan bir koleksiyon. Anladığım kadarıyla, bu eğri üzerindeki diz noktasını veya …

5
Nominal / dairesel değişkenler için SOM kümelemesi
Nominal girdileri kümelemeye aşina olup olmadığını merak etmek. SOM'a bir çözüm olarak bakıyordum ama görünüşe göre sadece sayısal özelliklerle çalışıyor. Kategorik özellikler için herhangi bir uzantı var mı? Özellikle 'Haftanın Günleri'ni olası bir özellik olarak merak ediyordum. Tabii ki bunu sayısal bir özelliğe dönüştürmek mümkündür (yani Mon - Sun, 1-7 …

2
Çok boyutlu verileri (LSI) 2B olarak görüntüleme
Belgeler arasındaki benzerlikleri bulmak için gizli anlamsal indeksleme kullanıyorum ( teşekkürler, JMS! ) Boyut küçültmeden sonra, belgeleri çok iyi çalışan kümeler halinde gruplamak için k-ortalama kümelemeyi denedim. Ama biraz daha ileri gitmek ve belgeleri herhangi bir iki düğüm arasındaki mesafenin benzerlikleriyle ters orantılı olduğu bir düğüm kümesi olarak görselleştirmek istiyorum …

3
K-araçları kümelemeyi başlatma yöntemleri
K-ortalamaları için başlangıç ​​tohumlarını (küme merkezleri) seçmek için mevcut teknolojiyle ilgileniyorum. Google, iki popüler seçeneğe yol açar: başlangıç ​​tohumlarının rastgele seçimi ve KMeans ++ seçim tekniğini kullanarak: Arthur & Vassilvitskii 2006 k-means ++: Dikkatli Tohumlamanın Avantajları Buradaki herkesin farkında olduğu ve bu kadar popüler olmayabilecek başka umut verici yöntemler var …

1
R / mgcv: te () ve ti () tensör ürünleri neden farklı yüzeyler üretir?
mgcvİçin paket Rtensör ürün etkileşimleri uydurma için iki işlevi vardır: te()ve ti(). İkisi arasındaki temel işbölümünü anlıyorum (doğrusal olmayan bir etkileşime uymak ve bu etkileşimi ana etkilere ve etkileşime ayırmak). Anlamadığım şey neden te(x1, x2)ve ti(x1) + ti(x2) + ti(x1, x2)(biraz) farklı sonuçlar üretebilir. MWE (uyarlanmıştır ?ti): require(mgcv) test1 <- …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Büyük bir ikili veri kümesini birkaç kategoriye kümelemek için hangi algoritmayı kullanmalıyım?
Büyük (650K satır * 62 sütun) ikili veri matrisi (yalnızca 0-1 girişleri) var. Matris çoğunlukla seyrek: yaklaşık% 8 doldurulur. Bunu 5 gruba ayırmak istiyorum - 1'den 5'e kadar adlandırın. Hiyerarşik kümelemeyi denedim ve boyutu işleyemedim. Ayrıca 62 uzunluk 650K bit vektörleri göz önünde bulundurarak çekiçleme mesafesine dayalı k-ortalama kümeleme algoritması …

3
Küme çözümlerini değerlendirmek için iki Gauss karışımı arasındaki mesafe
Farklı kümeleme yöntemlerini karşılaştırmak için hızlı bir simülasyon çalıştırıyorum ve şu anda küme çözümlerini değerlendirmeye çalışan bir engelle karşılaşıyorum. Çeşitli doğrulama metriklerini biliyorum (çoğu R'de cluster.stats () öğesinde bulundu ), ancak tahmin edilen küme sayısının gerçek kümelerin gerçek sayısına eşit olması durumunda bunların en iyi şekilde kullanıldığını varsayıyorum. Orijinal simülasyonda …

2
Sıralı verilerden oluşan bir koleksiyon nasıl 'akıllıca' depolanır?
Akıllı bir şekilde sıralanmış bir koleksiyon bin çalışıyorum. adet veri koleksiyonum var . Ama içine bu veri uyan biliyoruz eşit olmayan bidonları büyüklüğünde. Verilere tam olarak uyacak şekilde uç noktaları akıllıca nasıl seçeceğimi bilmiyorum. Örneğin:mnnnmmm Koleksiyonumda 12 ürün olduğunu ve verilerin 3 kutuya sığacağını biliyorum: Index: 1 2 3 4 …

5
Lojistik regresyon için verileri bölmenin bir aracı olarak kümeleme
Lojistik regresyon modeline sahip bazı özelliklere dayanarak öğrencilerin başarı veya başarısızlıklarını tahmin etmeye çalışıyorum. Modelin performansını artırmak için, öğrencileri bariz farklılıklara dayanarak farklı gruplara ayırmayı ve her grup için ayrı modeller oluşturmayı düşündüm. Ancak bu grupları sınavla tanımlamanın zor olabileceğini düşünüyorum, bu yüzden öğrencileri özellikleri üzerinde kümelenerek ayırmayı düşündüm. Bu, …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.