«clustering» etiketlenmiş sorular

Küme analizi, sınıf etiketleri gibi önceden var olan bilgileri kullanmadan, verileri karşılıklı "benzerliklerine" göre nesnelerin alt kümelerine bölme görevidir. [Kümelenmiş standart hatalar ve / veya küme örnekleri bu şekilde etiketlenmelidir; onlar için "kümeleme" etiketini KULLANMAYIN.]

5
K-araçlarının sakıncaları nasıl anlaşılır
K-aracı küme analizinde yaygın olarak kullanılan bir yöntemdir. Anladığım kadarıyla, bu yöntem HERHANGİ BİR varsayım gerektirmez, yani, bana bir veri kümesi ve önceden belirlenmiş sayıda küme verir, k ve ben sadece küme içindeki kare hataların (SSE) en aza indirgenen bu algoritmayı uygularım hata. Yani k-aracı aslında bir optimizasyon problemidir. K-araçlarının …


8
Yüz görüntülerinin veritabanında belirli bir yüzü algılama
Twitter kullanıcılarının yüzlerini içeren küçük bir proje üzerinde kendi profil resimlerim üzerinde çalışıyorum. Karşılaştığım bir sorun, net portre fotoğrafları olan görüntüleri hariç tuttuktan sonra, küçük ama önemli bir twitter kullanıcısının yüzdesi Justin Bieber resmini profil resmi olarak kullanıyor. Bunları filtrelemek için, programlı olarak bir fotoğrafın Justin Bieber'ın olup olmadığını nasıl …

6
Verilerin kümelenme algoritmalarının anlamlı sonuçlar üretmesi için yeterince “kümelenmiş” olup olmadığını nasıl anlarım?
(Yüksek boyutlu) verilerinizin, kmean'lardan veya diğer kümelenme algoritmasından elde edilen sonuçların gerçekten anlamlı olması için yeterli kümelenme gösterip göstermediğini nasıl bilebilirdiniz? Özellikle k-aracı algoritması için kümelenme varyansındaki düşüşün ne kadarının gerçek kümelenme sonuçlarının anlamlı (ve sahte olmayan) olması gerekir? Kümelenme, verilerin boyutsal olarak azaltılmış bir şekli çizildiğinde ortaya çıkmalı mı …

6
T-SNE çıkışında kümeleme
Kümelerin içindeki alt grup etkilerini aramadan önce gürültülü bir veri kümesini kümelemenin kullanışlı olacağı bir uygulama buldum. İlk önce PCA'ya baktım, ancak değişkenliğin% 90'ını elde etmek ~ 30 bileşen alıyor, bu nedenle yalnızca birkaç PC'ye kümelemek çok fazla bilgiyi atıyor. Daha sonra t-SNE'yi denedim (ilk defa), bu bana k-araçlarıyla kümelemeye …

3
Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu
Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Bir kümeleme yöntemi seçme
Benzer vakaları gruplandırmak için ayarlanmış bir veri üzerinde küme analizi kullanılırken, çok sayıda kümeleme yöntemi ve uzaklık ölçüsü arasından seçim yapılması gerekir. Bazen bir seçim diğerini etkileyebilir, ancak birçok olası yöntem kombinasyonu vardır. Çeşitli kümeleme algoritmaları / yöntemleri ve mesafe ölçütleri arasından nasıl seçim yapılacağı konusunda herhangi bir tavsiyesi olan …


6
Neden k-araçlar kümeleme algoritması sadece Öklid uzaklık metriğini kullanıyor?
Verimlilik veya işlevsellik açısından k-aracı algoritmasının örneğin uzaklık ölçüsü olarak kosinüs (dis) benzerliğini kullanmadığı, ancak sadece Öklid normunu kullanabileceği belirli bir amaç var mı? Genel olarak, K-aracı yöntemi Öklid'den başka mesafeler göz önüne alındığında veya kullanıldığında uygun olacak ve doğru olacak mı? [@ Ttnphns ilavesi. Soru iki katlıdır. "(Olmayan) Öklid …

6
Bir dendrogram nerede kesilir?
Hiyerarşik kümeleme bir dendrogram ile temsil edilebilir. Bir dendrogramın belirli bir seviyede kesilmesi bir dizi kümeye neden olur. Başka bir seviyede kesme, başka bir küme kümesi verir. Dendrogramın nerede kesileceğini nasıl seçersiniz? En uygun noktayı düşünebileceğimiz bir şey var mı? Değişen zaman boyunca bir dendrograma bakarsam, aynı noktada mı kesmeliyim?

5
K-ortalama kümeleme ve PCA arasındaki ilişki nedir?
Kümeleme algoritmasından önce (k-aracı gibi) PCA'yı (temel bileşen analizi) uygulamak yaygın bir uygulamadır. Uygulamada kümelenme sonuçlarını iyileştirdiğine inanılmaktadır (gürültü azaltma). Bununla birlikte, PCA ile k-aracı arasındaki ilişkinin karşılaştırmalı ve derinlemesine çalışılmasıyla ilgileniyorum. Örneğin, Chris Ding ve Xiaofeng He, 2004, K-anlamına gelir Ana Bileşen Analizi ile Kümeleme , "temel bileşenlerin K-aracı …

10
Doğru küme sayısına nasıl karar verilir?
Küme merkezlerini bulur ve çok iyi bilinen bir algoritma olan ve neredeyse net ağdaki her makine öğrenme paketinde bulunan k-ortalama kümelemesinde k farklı küme kutularına puanlar atarız . Ancak bence eksik ve en önemli kısım, doğru bir k seçimidir. Bunun için en iyi değer nedir? Ve en iyisi ile ne …

10
Uzaklık matrisiyle kümeleme
Her bir Mdüğüm çifti arasındaki mesafeyi temsil eden bir (simetrik) matrisim var. Örneğin, abcçdefgğhıi A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 …
52 clustering 

2
Yapay bir sinir ağı ANN, denetlenmemiş kümelenme için nasıl kullanılabilir?
artificial neural network (ANN)Tahminlerde hatayı azaltarak armatürü iyileştirmek için backpropogation kullanarak denetimli bir şekilde nasıl eğitilebileceğini anlıyorum . Bir YSA'nın denetimsiz öğrenme için kullanılabileceğini duydum, ancak optimizasyon aşamalarını yönlendirmek için bir çeşit maliyet fonksiyonu olmadan nasıl yapılabilir? K-means veya EM algoritması ile her yinelemenin artması için bir fonksiyon vardır. Bir …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.