İstatistikler ve Büyük Veri clustering

3

Kümeleme olasılık dağılımları - yöntemler ve metrikler?

Bazı veri noktaları var, her biri 5 vektör kümelenmiş ayrık sonuç içeren vektörler, her vektörün sonuçları farklı bir dağılımla üretildi (belirli bir tür emin değilim, en iyi tahminim Weibull, şekil parametresi gücün üstelinde bir yerde değişiyor) (1'den 0'a, kabaca).) Her bir veri noktasını 5 bileşen dağılımlarının özelliklerine göre gruplara koymak …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

2

Gower mesafesi ikili değişkenler arasındaki farkı nasıl hesaplar?

Veri kümemde 73 örnekle 17 sayısal ve 5 ikili (0-1) değişkenim var. Bir küme analizi yürütmem gerekiyor. Gower mesafesinin karışık değişkenlere sahip veri kümeleri için iyi bir metrik olduğunu biliyorum. Ancak, Gower mesafesinin ikili değişkenler arasındaki farkı nasıl hesapladığını anlayamadım . Bana öyle geliyor ki Öklid mesafesinden farklı değil.

13 clustering distance mixed-type-data

1

k-ortalamalar || aka Ölçeklenebilir K-Ortalamalar ++

Bahman Bahmani ve diğ. k-means ++ 'nın daha hızlı bir sürümü olan k-means ||' ı tanıttı. Bu algoritma 4. sayfasında alınır onların kağıt , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., & Vassilvitskii, S. (2012). Ölçeklenebilir k-++ anlamına gelir. VLDB Vakası Bildirileri , 5 (7), 622-633. Ne yazık ki …

12 clustering k-means

5

Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?

Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

Çapraz doğrulama ile temel gerçeği olmayan bir veri kümesinde farklı kümeleme yöntemlerini karşılaştırabilir misiniz?

Şu anda, temel gerçeği olmayan bir metin belgesi veri kümesini analiz etmeye çalışıyorum. Farklı kümeleme yöntemlerini karşılaştırmak için k-kat çapraz doğrulamayı kullanabileceğiniz söylendi. Ancak, geçmişte gördüğüm örnekler temel bir hakikat kullanır. Sonuçlarımı doğrulamak için bu veri kümesinde k-katlama araçlarını kullanmanın bir yolu var mı?

12 machine-learning clustering cross-validation unsupervised-learning

5

Küme analizi için değişken seçimi yapmak için PCA kullanabilir miyim?

Bir küme analizi yapabilmek için değişken sayısını azaltmalıyım. Değişkenlerim güçlü bir şekilde ilişkilidir, bu yüzden bir Faktör Analizi PCA (temel bileşen analizi) yapmayı düşündüm . Ancak, elde edilen puanları kullanırsam, kümelerim tam olarak doğru değildir (literatürdeki önceki sınıflandırmalara kıyasla). Soru: Her bileşen / faktör için en büyük yüke sahip değişkenleri …

12 clustering pca feature-selection factor-analysis

2

R'deki uzamsal verileri kümeleme

Bir dizi deniz yüzeyi sıcaklığı (SST) aylık verilerim var ve benzer SST modellerine sahip bölgeleri tespit etmek için bazı küme metodolojisi uygulamak istiyorum. 1985'ten 2009'a kadar çalışan bir dizi aylık veri dosyam var ve her aya ilk adım olarak kümeleme uygulamak istiyorum. Her dosya, yaklaşık% 50'sinin kara olduğu ve NA …

12 r clustering spatial

6

Küme Analizine giriş olarak önerilen kitaplar veya makaleler?

Bazı küme analizleriyle araştırmak istediğim küçük bir metin grubu üzerinde çalışıyorum. Bu konuda hangi kitapları veya makaleleri önerirsiniz?

12 machine-learning references clustering

1

Fisher Kesin Testi ve Hipergeometrik Dağılım

Balıkçı testini daha iyi anlamak istedim, bu yüzden f ve m erkek ve kadına karşılık gelen ve n ve y "soda tüketimine" karşılık gelen aşağıdaki oyuncak örneğini tasarladım: > soda_gender f m n 0 5 y 5 0 Açıkçası, bu büyük bir basitleştirme, ama bağlamın önüne geçmesini istemedim. Burada sadece …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

R'de k-ortalama kümelemenin sonucunu yorumlama

kmeansAnderson'ın iris veri kümesinde k-ortalama algoritmasını gerçekleştirmek için R komutunu kullanıyordum . Sahip olduğum bazı parametreler hakkında bir sorum var. Sonuçlar: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Bu durumda, "Küme anlamı" ne anlama gelir? Kümedeki tüm nesnelerin mesafelerinin ortalaması nedir? Ayrıca son bölümde: Within cluster …

12 r machine-learning clustering interpretation k-means

1

R'deki karışık veriler için sağlam küme yöntemi

Küçük bir veri kümesi (4 aralık değişkenleri ve tek bir üç faktörlü kategorik değişken 64 gözlem) küme arıyorum. Şimdi, küme analizinde oldukça yeniyim, ancak hiyerarşik kümelemenin veya k-araçlarının mevcut tek seçenek olduğu günlerden bu yana önemli ilerlemeler olduğunun farkındayım. Özellikle, chl tarafından belirtildiği gibi , "küme veya sınıfların sayısına karar …

12 clustering model-based-clustering mixed-type-data

3

İkili veri kümelememin önemli olup olmadığını nasıl test edebilirim

Alışveriş sepeti analizleri veri setim, satın alınan ürünlerle işlem vektörleri kümesi yapıyorum. İşlemlere k-ortalamaları uygularken, her zaman bir sonuç alacağım . Rastgele bir matris muhtemelen bazı kümeler de gösterir. Bulduğum kümelenmenin önemli olup olmadığını test etmenin bir yolu var mı, yoksa bu bir tesadüf olabilir. Evet ise, bunu nasıl yapabilirim.

12 clustering statistical-significance binary-data

1

Küme analizinde değişkenlere ağırlık atayın

Küme analizimdeki değişkenlere farklı ağırlıklar atamak istiyorum, ancak programımın (Stata) bunun için bir seçeneği yok gibi görünüyor, bu yüzden manuel olarak yapmam gerekiyor. 4 değişken A, B, C, D düşünün. Bu değişkenlerin ağırlıkları w(A)=50% w(B)=25% w(C)=10% w(D)=15% Aşağıdaki iki yaklaşımdan birinin hile yapıp yapmayacağını merak ediyorum: İlk olarak tüm değişkenleri …

12 clustering stata

1

Örnek kovaryans matrisi ters çevrilemezse ne yapmalı?

Bazı kümeleme teknikleri üzerinde çalışıyorum, burada belirli bir d-boyut vektörleri kümesi için çok değişkenli normal dağılım varsayıyorum ve örnek d-boyutlu ortalama vektörü ve örnek kovaryans matrisini hesaplıyorum. Sonra yeni, görünmeyen, d boyutlu bir vektörün bu kümeye ait olup olmadığına karar vermeye çalışırken mesafesini şu ölçü ile kontrol ediyorum: ( Xben- …

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

K-ortalamaları kümeleme algoritmamın boyutsallığın lanetinden muzdarip olduğunu nasıl bilebilirim?

Bu sorunun başlığının her şeyi söylediğine inanıyorum.

12 clustering k-means high-dimensional

«clustering» etiketlenmiş sorular