«k-means» etiketlenmiş sorular

k-ortalaması, en yakın ortalama ile kümelere veri atandığı zaman, k, st belirtilen sayıda araç bularak verileri kümelere bölme yöntemidir, kareler w / i küme toplamı en aza indirilir

5
K-araçlarının sakıncaları nasıl anlaşılır
K-aracı küme analizinde yaygın olarak kullanılan bir yöntemdir. Anladığım kadarıyla, bu yöntem HERHANGİ BİR varsayım gerektirmez, yani, bana bir veri kümesi ve önceden belirlenmiş sayıda küme verir, k ve ben sadece küme içindeki kare hataların (SSE) en aza indirgenen bu algoritmayı uygularım hata. Yani k-aracı aslında bir optimizasyon problemidir. K-araçlarının …


6
Verilerin kümelenme algoritmalarının anlamlı sonuçlar üretmesi için yeterince “kümelenmiş” olup olmadığını nasıl anlarım?
(Yüksek boyutlu) verilerinizin, kmean'lardan veya diğer kümelenme algoritmasından elde edilen sonuçların gerçekten anlamlı olması için yeterli kümelenme gösterip göstermediğini nasıl bilebilirdiniz? Özellikle k-aracı algoritması için kümelenme varyansındaki düşüşün ne kadarının gerçek kümelenme sonuçlarının anlamlı (ve sahte olmayan) olması gerekir? Kümelenme, verilerin boyutsal olarak azaltılmış bir şekli çizildiğinde ortaya çıkmalı mı …

6
T-SNE çıkışında kümeleme
Kümelerin içindeki alt grup etkilerini aramadan önce gürültülü bir veri kümesini kümelemenin kullanışlı olacağı bir uygulama buldum. İlk önce PCA'ya baktım, ancak değişkenliğin% 90'ını elde etmek ~ 30 bileşen alıyor, bu nedenle yalnızca birkaç PC'ye kümelemek çok fazla bilgiyi atıyor. Daha sonra t-SNE'yi denedim (ilk defa), bu bana k-araçlarıyla kümelemeye …

3
K-ortalama küme analizi sonuçlarının güzel bir grafiği nasıl oluşturulur?
K-kümeleme yapmak için R kullanıyorum. K-means'i çalıştırmak için 14 değişken kullanıyorum K-araçlarının sonuçlarını çizmenin güzel bir yolu nedir? Herhangi bir uygulama var mı? 14 değişkene sahip olmak sonuçları çizmeyi zorlaştırıyor mu? GGcluster adında havalı görünen bir şey buldum ama hala gelişme aşamasında. Ayrıca, sammon haritalama hakkında bir şeyler okudum, ama …

6
Neden k-araçlar kümeleme algoritması sadece Öklid uzaklık metriğini kullanıyor?
Verimlilik veya işlevsellik açısından k-aracı algoritmasının örneğin uzaklık ölçüsü olarak kosinüs (dis) benzerliğini kullanmadığı, ancak sadece Öklid normunu kullanabileceği belirli bir amaç var mı? Genel olarak, K-aracı yöntemi Öklid'den başka mesafeler göz önüne alındığında veya kullanıldığında uygun olacak ve doğru olacak mı? [@ Ttnphns ilavesi. Soru iki katlıdır. "(Olmayan) Öklid …

5
K-ortalama kümeleme ve PCA arasındaki ilişki nedir?
Kümeleme algoritmasından önce (k-aracı gibi) PCA'yı (temel bileşen analizi) uygulamak yaygın bir uygulamadır. Uygulamada kümelenme sonuçlarını iyileştirdiğine inanılmaktadır (gürültü azaltma). Bununla birlikte, PCA ile k-aracı arasındaki ilişkinin karşılaştırmalı ve derinlemesine çalışılmasıyla ilgileniyorum. Örneğin, Chris Ding ve Xiaofeng He, 2004, K-anlamına gelir Ana Bileşen Analizi ile Kümeleme , "temel bileşenlerin K-aracı …

10
Doğru küme sayısına nasıl karar verilir?
Küme merkezlerini bulur ve çok iyi bilinen bir algoritma olan ve neredeyse net ağdaki her makine öğrenme paketinde bulunan k-ortalama kümelemesinde k farklı küme kutularına puanlar atarız . Ancak bence eksik ve en önemli kısım, doğru bir k seçimidir. Bunun için en iyi değer nedir? Ve en iyisi ile ne …

3
K-Means ve EM ile Kümelenme: Bunlar nasıl ilişkilidir?
Verileri kümelemek için algoritmalar çalıştım (denetimsiz öğrenme): EM ve k-araçları. Aşağıdakileri okumaya devam ediyorum: k-aracı, kümelerin küresel olduğu varsayımlarıyla birlikte EM'nin bir çeşididir. Birisi yukarıdaki cümleyi açıklayabilir mi? Küresel olanın ne anlama geldiğini ve kmeans ve EM'in birbirleriyle nasıl ilişkili olduğunu anlamıyorum, çünkü biri olasılıksal ödevini diğeri ise deterministik bir …


5
Kümelemeden önce verileri ölçeklendirmek önemli mi?
Kümelemeden önce özelliklerde scale işlevini çalıştırmanız gerektiğini öneren bu öğreticiyi buldum (verileri z puanlarına dönüştürdüğüne inanıyorum). Bunun gerekli olup olmadığını merak ediyorum. Çoğunlukla soruyorum çünkü verileri ölçeklemediğimde güzel bir dirsek noktası var, ancak ölçeklendiğinde kayboluyor. :)


1
PCA, bir k-aracı kümeleme analizine nasıl yardımcı olur?
Amaç : Bir kentin yerleşim alanlarını, konut birim yoğunluğu, nüfus yoğunluğu, yeşil alan, konut fiyatı, okul sayısı, okul / sağlık merkezleri / günlük bakım merkezleri gibi sosyal-ekonomik özelliklerine göre gruplandırmak istiyorum. Yerleşim bölgelerinin kaç farklı gruba bölünebileceğini ve bunların benzersiz özelliklerinin neler olduğunu anlamak istiyorum. Bu bilgi şehir planlamasını kolaylaştırabilir. …

3
Uzun bir dizge listesinin (sözcüklerin) benzerlik gruplarında kümelenmesi
Elimde şu problem var: Çok uzun bir kelime listem var, muhtemelen isimler, soyadlar, vs. Bu kelime listesini kümelemeliyim, öyle ki benzer kelimeler, örneğin benzer düzenleme (Levenshtein) mesafeli kelimeler Aynı küme Örneğin, "algoritma" ve "alogrithm" aynı kümede görünmek için yüksek şansa sahip olmalıdır. Örüntü Tanıma literatüründe K-ortalama kümeleme, EM kümeleme gibi …

5
Makine öğrenmesinde hiyerarşik / iç içe geçmiş verilerle nasıl baş edilir
Sorunumu bir örnekle açıklayacağım. Bazı nitelikler verilen bir bireyin gelirini tahmin etmek istediğinizi varsayalım: {Yaş, Cinsiyet, Ülke, Bölge, Şehir}. Bunun gibi bir eğitim veri setine sahipsiniz train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.