«clustering» etiketlenmiş sorular

Küme analizi, sınıf etiketleri gibi önceden var olan bilgileri kullanmadan, verileri karşılıklı "benzerliklerine" göre nesnelerin alt kümelerine bölme görevidir. [Kümelenmiş standart hatalar ve / veya küme örnekleri bu şekilde etiketlenmelidir; onlar için "kümeleme" etiketini KULLANMAYIN.]

3
Kümeleme olasılık dağılımları - yöntemler ve metrikler?
Bazı veri noktaları var, her biri 5 vektör kümelenmiş ayrık sonuç içeren vektörler, her vektörün sonuçları farklı bir dağılımla üretildi (belirli bir tür emin değilim, en iyi tahminim Weibull, şekil parametresi gücün üstelinde bir yerde değişiyor) (1'den 0'a, kabaca).) Her bir veri noktasını 5 bileşen dağılımlarının özelliklerine göre gruplara koymak …

2
Gower mesafesi ikili değişkenler arasındaki farkı nasıl hesaplar?
Veri kümemde 73 örnekle 17 sayısal ve 5 ikili (0-1) değişkenim var. Bir küme analizi yürütmem gerekiyor. Gower mesafesinin karışık değişkenlere sahip veri kümeleri için iyi bir metrik olduğunu biliyorum. Ancak, Gower mesafesinin ikili değişkenler arasındaki farkı nasıl hesapladığını anlayamadım . Bana öyle geliyor ki Öklid mesafesinden farklı değil.

1
k-ortalamalar || aka Ölçeklenebilir K-Ortalamalar ++
Bahman Bahmani ve diğ. k-means ++ 'nın daha hızlı bir sürümü olan k-means ||' ı tanıttı. Bu algoritma 4. sayfasında alınır onların kağıt , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). Ölçeklenebilir k-++ anlamına gelir. VLDB Vakası Bildirileri , 5 (7), 622-633. Ne yazık ki …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Çapraz doğrulama ile temel gerçeği olmayan bir veri kümesinde farklı kümeleme yöntemlerini karşılaştırabilir misiniz?
Şu anda, temel gerçeği olmayan bir metin belgesi veri kümesini analiz etmeye çalışıyorum. Farklı kümeleme yöntemlerini karşılaştırmak için k-kat çapraz doğrulamayı kullanabileceğiniz söylendi. Ancak, geçmişte gördüğüm örnekler temel bir hakikat kullanır. Sonuçlarımı doğrulamak için bu veri kümesinde k-katlama araçlarını kullanmanın bir yolu var mı?

5
Küme analizi için değişken seçimi yapmak için PCA kullanabilir miyim?
Bir küme analizi yapabilmek için değişken sayısını azaltmalıyım. Değişkenlerim güçlü bir şekilde ilişkilidir, bu yüzden bir Faktör Analizi PCA (temel bileşen analizi) yapmayı düşündüm . Ancak, elde edilen puanları kullanırsam, kümelerim tam olarak doğru değildir (literatürdeki önceki sınıflandırmalara kıyasla). Soru: Her bileşen / faktör için en büyük yüke sahip değişkenleri …

2
R'deki uzamsal verileri kümeleme
Bir dizi deniz yüzeyi sıcaklığı (SST) aylık verilerim var ve benzer SST modellerine sahip bölgeleri tespit etmek için bazı küme metodolojisi uygulamak istiyorum. 1985'ten 2009'a kadar çalışan bir dizi aylık veri dosyam var ve her aya ilk adım olarak kümeleme uygulamak istiyorum. Her dosya, yaklaşık% 50'sinin kara olduğu ve NA …
12 r  clustering  spatial 


1
Fisher Kesin Testi ve Hipergeometrik Dağılım
Balıkçı testini daha iyi anlamak istedim, bu yüzden f ve m erkek ve kadına karşılık gelen ve n ve y "soda tüketimine" karşılık gelen aşağıdaki oyuncak örneğini tasarladım: > soda_gender f m n 0 5 y 5 0 Açıkçası, bu büyük bir basitleştirme, ama bağlamın önüne geçmesini istemedim. Burada sadece …

2
R'de k-ortalama kümelemenin sonucunu yorumlama
kmeansAnderson'ın iris veri kümesinde k-ortalama algoritmasını gerçekleştirmek için R komutunu kullanıyordum . Sahip olduğum bazı parametreler hakkında bir sorum var. Sonuçlar: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Bu durumda, "Küme anlamı" ne anlama gelir? Kümedeki tüm nesnelerin mesafelerinin ortalaması nedir? Ayrıca son bölümde: Within cluster …

1
R'deki karışık veriler için sağlam küme yöntemi
Küçük bir veri kümesi (4 aralık değişkenleri ve tek bir üç faktörlü kategorik değişken 64 gözlem) küme arıyorum. Şimdi, küme analizinde oldukça yeniyim, ancak hiyerarşik kümelemenin veya k-araçlarının mevcut tek seçenek olduğu günlerden bu yana önemli ilerlemeler olduğunun farkındayım. Özellikle, chl tarafından belirtildiği gibi , "küme veya sınıfların sayısına karar …

3
İkili veri kümelememin önemli olup olmadığını nasıl test edebilirim
Alışveriş sepeti analizleri veri setim, satın alınan ürünlerle işlem vektörleri kümesi yapıyorum. İşlemlere k-ortalamaları uygularken, her zaman bir sonuç alacağım . Rastgele bir matris muhtemelen bazı kümeler de gösterir. Bulduğum kümelenmenin önemli olup olmadığını test etmenin bir yolu var mı, yoksa bu bir tesadüf olabilir. Evet ise, bunu nasıl yapabilirim.

1
Küme analizinde değişkenlere ağırlık atayın
Küme analizimdeki değişkenlere farklı ağırlıklar atamak istiyorum, ancak programımın (Stata) bunun için bir seçeneği yok gibi görünüyor, bu yüzden manuel olarak yapmam gerekiyor. 4 değişken A, B, C, D düşünün. Bu değişkenlerin ağırlıkları w(A)=50% w(B)=25% w(C)=10% w(D)=15% Aşağıdaki iki yaklaşımdan birinin hile yapıp yapmayacağını merak ediyorum: İlk olarak tüm değişkenleri …
12 clustering  stata 

1
Örnek kovaryans matrisi ters çevrilemezse ne yapmalı?
Bazı kümeleme teknikleri üzerinde çalışıyorum, burada belirli bir d-boyut vektörleri kümesi için çok değişkenli normal dağılım varsayıyorum ve örnek d-boyutlu ortalama vektörü ve örnek kovaryans matrisini hesaplıyorum. Sonra yeni, görünmeyen, d boyutlu bir vektörün bu kümeye ait olup olmadığına karar vermeye çalışırken mesafesini şu ölçü ile kontrol ediyorum: ( Xben- …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.