«k-means» etiketlenmiş sorular

k-ortalaması, en yakın ortalama ile kümelere veri atandığı zaman, k, st belirtilen sayıda araç bularak verileri kümelere bölme yöntemidir, kareler w / i küme toplamı en aza indirilir

1
Standart ve küresel k-ortalama algoritmaları arasındaki fark
Standart ve küresel k-ortalama kümeleme algoritmaları arasındaki temel uygulama farkının ne olduğunu anlamak isterim. Her adımda, k-aracı eleman vektörleri ve küme centroidleri arasındaki mesafeleri hesaplar ve ortağı en yakın olan bu kümeye belgeyi yeniden atar. Daha sonra, tüm centroidler yeniden hesaplanır. Küresel k araçlarında, tüm vektörler normalize edilir ve mesafe …

2
İkili ve sürekli değişkenleri kümelemede birlikte nasıl kullanırsınız?
K-araçlarında ikili değişkenleri (0 ve 1 değerleri) kullanmam gerekiyor. Ancak k-aracı sadece sürekli değişkenlerle çalışır. Bazı insanların hala bu ikili değişkenleri k-araçlarında k-araçlarının sadece sürekli değişkenler için tasarlandığı gerçeğini göz ardı ederek kullandığını biliyorum. Bu benim için kabul edilemez. Sorular: Öyleyse, k-means / hiyerarşik kümelemede ikili değişkenleri kullanmanın istatistiksel / …

5
Her kümenin eşit sayıda puana sahip olduğu kümeleme prosedürü?
Bazı noktalar var içinde ve ben böylece noktaları küme istiyorum:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}R,pR,pR^p Her kümede eşit sayıda elemanı bulunur . (Bu kümeler böler sayısı varsayalım .)XXXnnn Her küme, bir anlamda, araçlarından gelen kümeler gibi, "uzamsal olarak yapışkandır" .kkk Bunlardan birini veya diğerini tatmin eden birçok kümelenme …

3
Veritabanından 1d veri farklı kümeleri belirleme
Farklı düğümler arasında veri transferleri veritabanı tablosu var. Bu büyük bir veri tabanıdır (yaklaşık 40 milyon transferle). Özniteliklerden biri, 0 byte ile 2 tera byte arasında değişen bayt sayısı (nbyte) transferidir. Nbaytları kümelemek isterim ki, k kümeleri verildiğinde bazı x1 transferleri k1 kümesine, x2 k2 vb. Kullandığım terminolojiden neyle gittiğimi …

8
K-araçlarının (veya yakın akrabalarının) kümelemeyi, sadece nokta-özellik verileriyle değil, yalnızca bir mesafe matrisiyle kümelemeyi gerçekleştirin.
Sahip olduğum nesnelere K-aracı kümelemesi yapmak istiyorum, ancak nesneler uzayda nokta, yani objects x featuresveri kümesi tarafından tanımlanmadı . Ancak, herhangi iki nesne arasındaki mesafeyi hesaplayabiliyorum (benzerlik işlevine dayanıyor). Bu yüzden mesafe matrisini elden çıkarıyorum objects x objects. Daha önce K-araçları kullandım, ancak bu nokta veri kümesi girdisiydi; ve uzaklık …

2
K-anlamına gelen kümeleme Gauss karışım modellemesinin bir biçimiyse, veriler normal olmadığında kullanılabilir mi?
Bishop'u GMM için EM algoritması ve GMM ile k-ortalamaları arasındaki ilişki üzerine okuyorum. Bu kitapta k-means'ın GMM'nin zor atanmış bir versiyonu olduğu söyleniyor. Merak ediyorum ki, kümelenmeye çalıştığım veriler Gauss değilse, k-Ortalamaları kullanamam (ya da en azından kullanmak uygun değil)? Örneğin, veriler her biri 0 veya 1 değerine sahip 8 …

4
Bir korelasyon matrisinin kümelenmesi
Her öğenin diğer öğeyle nasıl ilişkilendirildiğini belirten bir korelasyon matrisim var. Dolayısıyla bir N maddesi için zaten bir N * N korelasyon matrisi var. Bu korelasyon matrisini kullanarak, K bölmesindeki Nk Öğelerinin aynı şekilde davrandığını söyleyebilmem için M bölmelerindeki N öğelerini nasıl kümeleyebilirim. Lütfen bana yardım et. Tüm öğe değerleri …

2
K-araçlarının yakınsaklığının kanıtı
Bir ödev için, k-anlamına gelen sonlu sayıda adımda yakınsadığına dair bir kanıt sunmam istendi. Ben yazdım: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Adım 2, her bir veri noktasını en yakın küme merkezine göre etiketleyen adıma atıfta bulunur ve adım 3, merkezlerin bir ortalama alınarak güncellendiği adımdır. Bu, sınırlı sayıda adımda yakınsamayı kanıtlamak için …

3
K-ortalamaları için boşluk istatistiği, açıkça iki tane olmasına rağmen neden bir küme öneriyor?
Verilerimi kümelemek için K-araçlarını kullanıyorum ve "en uygun" küme numarasını önermek için bir yol arıyordum. Boşluk istatistikleri, iyi bir küme numarası bulmanın yaygın bir yolu gibi görünmektedir. Herhangi bir nedenle 1'i optimum küme numarası olarak döndürür, ancak verilere baktığımda 2 küme olduğu açıktır: Ben R boşluğu şöyle çağırır: gap <- …

4
Hiyerarşik Kümelenmenin dezavantajları nasıl anlaşılır?
Birisi Hiyerarşik Kümelenmenin artılarını ve eksilerini açıklayabilir mi? Hiyerarşik Kümeleme, K ile aynı dezavantajlara sahip mi? Hiyerarşik Kümelemenin K'ye göre avantajları nelerdir? H ortalamalarını Hiyerarşik Kümeleme üzerinde ne zaman kullanmalıyız? Bu yazının cevapları k'ın çok iyi olduğu dezavantajlarını açıklıyor. K-araçlarının dezavantajları nasıl anlaşılır



5
K-Ortalamaları neden küresel minimum değeri vermiyor?
K-ortalamaları algoritmasının genel bir minimum değere değil, yalnızca yerel bir minimum değere yaklaştığını okudum. Bu neden? Mantıksal olarak başlatmanın son kümelemeyi nasıl etkileyebileceğini düşünebilirim ve en uygun olmayan kümeleme olasılığı vardır, ancak bunu matematiksel olarak kanıtlayacak hiçbir şey bulamadım. Ayrıca, k-neden yinelemeli bir süreçtir? Amaç fonksiyonunu centroidlerle kısmen ayırt edemeyiz, …

4
Degrade artırıcı makine doğruluğu, yineleme sayısı arttıkça azalır
Gradyan arttırıcı makine algoritmasını caretR'deki paket üzerinden deniyorum. Küçük bir kolej veri kümesi kullanarak, aşağıdaki kodu koştu: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Boyut küfürü bazı modelleri diğerlerinden daha fazla etkiler mi?
Boyutsallık laneti hakkında okuduğum yerler, öncelikle kNN ve genel olarak doğrusal modellerle bağlantılı olarak açıklıyor. Veri kümesindeki 100k veri noktasına sahip binlerce özellik kullanarak Kaggle'daki en üst sıralayıcıları düzenli olarak görüyorum. Diğerleri arasında ağırlıklı olarak Artırılmış ağaçlar ve NN kullanırlar. Pek çok özellik çok yüksek görünüyor ve boyutsal lanetten etkileneceklerini …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.