«k-means» etiketlenmiş sorular

k-ortalaması, en yakın ortalama ile kümelere veri atandığı zaman, k, st belirtilen sayıda araç bularak verileri kümelere bölme yöntemidir, kareler w / i küme toplamı en aza indirilir

2
k-k-medyan mı?
K-ortalamaları kümeleme algoritması ve k-medyan olduğunu biliyorum. Biri ortalamayı kümenin merkezi olarak, diğeri medyanı kullanır. Sorum şu: hangisi ne zaman / nerede kullanılır?

2
K-araçları neden degrade iniş kullanılarak optimize edilmiyor?
K-araçlarının genellikle Beklenti Maksimizasyonu kullanılarak optimize edildiğini biliyorum . Bununla birlikte, kayıp fonksiyonunu diğerlerini optimize ettiğimiz gibi optimize edebiliriz! Büyük ölçekli k-araçları için aslında stokastik gradyan kökenli bazı makaleler buldum , ancak sorumun yanıtını alamadım. Peki, bunun neden olduğunu bilen var mı? Beklenti Maksimizasyonu daha hızlı birleştiği için mi? Özel …

3
Neden diğer algoritmalar yerine k-araçlarını kullanıyoruz?
K-ortalamaları hakkında araştırma yaptım ve bunlar var: k-means bilinen kümelenme sorunlarını çözmek için denetimsiz öğrenme yöntemini kullanan en basit algoritmalardan biridir. Büyük veri kümeleriyle gerçekten iyi çalışır. Bununla birlikte, K-Ortalamalarının dezavantajları vardır: Aykırı değerlere ve gürültüye karşı güçlü hassasiyet Dairesel olmayan küme şekliyle iyi çalışmaz - küme sayısı ve başlangıç …


3
K-ortalamaları küme analizinden sonra ANOVA'nın uygunluğu
K-ortalama analizinden sonra ANOVA tablosundan sonraki bildirim, küme çözeltisi mesafeyi en üst düzeye çıkarmak için Öklid mesafesine göre türetildiğinden, önem seviyelerinin eşit araçların testi olarak görülmemesi gerektiğini gösterir. Kümeleme değişkenlerinin ortalamalarının kümeler arasında farklılık gösterip göstermediğini göstermek için hangi testi kullanmalıyım? Bu uyarıyı k-ortalamalarının çıktılarının ANOVA tablosunda gördüklerini gördüm, ancak …
14 anova  k-means 

2
R'de bulunan ve yeni bir veri kümesine kümeler atayan kümelerin merkezlerini alan bir işlev var mı?
Çok boyutlu bir veri setinin iki kısmı var, diyelim ki trainve test. Ve tren veri setine dayalı bir model oluşturmak ve test veri setinde doğrulamak istiyorum. Küme sayısı bilinmektedir. R'de k-ortalamaları kümelemeyi uygulamaya çalıştım ve kümelerin merkezlerini içeren bir nesne aldım: kClust <- kmeans(train, centers=N, nstart=M) R'de bulunan ve test …
14 r  clustering  k-means 


3
Kmeans çalıştırmadan önce korelasyonlu / doğrusal olan değişkenleri düşürmem gerekir mi?
Müşteri kümelerini tanımlamak için kmeans kullanıyorum. Kümeleri tanımlamak için yaklaşık 100 değişkenim var. Bu değişkenlerin her biri, bir müşterinin bir kategoriye yaptığı harcama yüzdesini temsil eder. Yani, 100 kategorim varsa, bu değişkenlerin toplamı her müşteri için% 100 olacak şekilde 100 değişkenim var. Şimdi, bu değişkenler birbiriyle güçlü bir şekilde ilişkilidir. …

5
Mesafeyi (Öklid) benzerlik puanına nasıl dönüştürebilirim?
Ben kullanıyorum kkk hoparlör sesleri küme kümeleme demektir. Bir ifadeyi kümelenmiş hoparlör verileriyle karşılaştırdığımda (Öklid mesafesine dayalı) ortalama bozulma elde ederim. Bu mesafe aralığında olabilir [0,∞][0,∞][0,\infty]. Bu mesafeyi [0,1][0,1][0,1] benzerlik skoruna dönüştürmek istiyorum . Lütfen bunu nasıl başarabileceğim konusunda bana yol gösterin.

4
K-ortalamaları veri kümesinin rasgele alt örnekleri aracılığıyla başlatmak?
Belirli bir veri kümem varsa, küme merkezlerini bu veri kümesinin rasgele örneklerini kullanarak başlatmak ne kadar akıllı olurdu? Örneğin, istediğimi varsayalım 5 clusters. Orijinal veri kümesinden 5 random samplessöz ediyorum size=20%. Daha sonra bu 5 rastgele örneğin her birini ortalayabilir ve bu araçları ilk 5 küme merkezim olarak kullanabilir miyim? …

2
KMEANS'taki k sayısını tahmin etmek için BIC kullanma
Şu anda oyuncak veri setim için BIC'yi hesaplamaya çalışıyorum (ofc iris (:). Sonuçları burada gösterildiği gibi çoğaltmak istiyorum (Şekil 5) Bu makale aynı zamanda BIC formülleri için kaynağım. Bu konuda 2 problemim var: Gösterim: ninin_i ben küme eleman = sayısıiii CiCiC_i i = küme merkez koordinatlarıiii xjxjx_j i = küme …


3
Kümeleme olasılık dağılımları - yöntemler ve metrikler?
Bazı veri noktaları var, her biri 5 vektör kümelenmiş ayrık sonuç içeren vektörler, her vektörün sonuçları farklı bir dağılımla üretildi (belirli bir tür emin değilim, en iyi tahminim Weibull, şekil parametresi gücün üstelinde bir yerde değişiyor) (1'den 0'a, kabaca).) Her bir veri noktasını 5 bileşen dağılımlarının özelliklerine göre gruplara koymak …

1
k-ortalamalar || aka Ölçeklenebilir K-Ortalamalar ++
Bahman Bahmani ve diğ. k-means ++ 'nın daha hızlı bir sürümü olan k-means ||' ı tanıttı. Bu algoritma 4. sayfasında alınır onların kağıt , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). Ölçeklenebilir k-++ anlamına gelir. VLDB Vakası Bildirileri , 5 (7), 622-633. Ne yazık ki …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.