«clustering» etiketlenmiş sorular

Küme analizi, sınıf etiketleri gibi önceden var olan bilgileri kullanmadan, verileri karşılıklı "benzerliklerine" göre nesnelerin alt kümelerine bölme görevidir. [Kümelenmiş standart hatalar ve / veya küme örnekleri bu şekilde etiketlenmelidir; onlar için "kümeleme" etiketini KULLANMAYIN.]

2
Gürültülü veri veya aykırı değerlerle kümeleme
Böyle iki değişkenli gürültülü bir veri var. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y …

1
Scikit kümeleme atalet formülü öğrenmek
Pandalar ve scikit öğrenmek kullanarak python kümeleme bir kmeans kodlamak istiyorum. İyi k'yi seçmek için, Tibshirani ve al 2001'den ( Pdf ) Gap İstatistiğini kodlamak istiyorum . Scikit'ten inertia_ sonucunu kullanıp kullanamayacağımı ve tüm istatistik hesaplamasını yeniden kodlamak zorunda kalmadan boşluk istatistik formülünü uyarlayıp uyarlayamayacağımı bilmek istiyorum . Scikit / …

3
K-ortalamaları için küme seçimi: 1 küme durumu
Kimse kmeans kullanarak kümelenmenin uygun olup olmadığını belirlemek için iyi bir yöntem biliyor mu? Yani, numuneniz aslında homojen ise? Bir karışım modeli gibi bir şey biliyorum (R'de mclust aracılığıyla) 1: k küme durumu için uygun istatistikler sağlayacaktır, ancak kmeans değerlendirmek için tüm teknikler en az 2 küme gerektirir gibi görünüyor. …
9 r  clustering  k-means 

5
Ön düzelme daha iyi bir öngörücü model oluşturmaya yardımcı olur mu?
Yayık modelleme görevi için şunları düşünüyordum: Veriler için k kümelerini hesaplama Her küme için ayrı ayrı k modelleri oluşturun. Bunun mantığı, kanıtlayacak hiçbir şeyin olmaması, alt kuruluşların nüfusunun homojen olmasıdır, bu nedenle veri üreten sürecin farklı "gruplar" için farklı olabileceğini varsaymak mantıklıdır. Sorum şu, bu uygun bir yöntem mi? Herhangi …

1
Gözlenen ve beklenen olayları nasıl karşılaştırırım?
Diyelim ki 4 olası olayın sıklık örneğine sahibim: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 ve olaylarımın gerçekleşmesi için beklenen olasılıklarım var: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dört olayın gözlemlenen frekanslarının toplamı ile (18) Olayların beklenen frekanslarını hesaplayabilir …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
Kümeleme algoritmalarının özelliklerini göstermek için 2B yapay veri arama
Farklı dağılımları ve formları takip eden 2 boyutlu veri noktalarının veri setlerini arıyorum (her veri noktası iki değerin (x, y) bir vektörü). Bu tür verileri oluşturmak için kod da yardımcı olacaktır. Bazı kümeleme algoritmalarının nasıl çalıştığını çizmek / görselleştirmek için bunları kullanmak istiyorum. İşte bazı örnekler: bulut verisi gibi yıldız …

4
1D verilerinin 1 veya 3 değer etrafında kümelenip kümelenmediğini nicel olarak nasıl anlarım?
Bir insanın kalp atışları arasındaki zaman hakkında bazı verilerim var. Ektopik (ekstra) atımların bir göstergesi, bu aralıkların bir yerine üç değer etrafında kümelenmiş olmasıdır. Bunun kantitatif bir ölçümünü nasıl alabilirim? Birden çok veri kümesini karşılaştırmak istiyorum ve bu iki 100 bölmeli histogramlar hepsini temsil ediyor. Varyansları karşılaştırabilirim, ancak algoritmamın diğer …


2
Hiyerarşik bir kümelemenin geçerli olması için bir mesafenin “metrik” olması gerekir mi?
N öğesi arasında bir metrik olmayan bir mesafe tanımladığımızı varsayalım . Bu mesafeye dayanarak daha sonra Aglomeratif hiyerarşik bir kümeleme kullanıyoruz . Anlamlı sonuçlar elde etmek için bilinen algoritmaların her birini (tek / maksimum / avaerage bağlantısı vb.) Kullanabilir miyiz? Veya farklı bir deyişle, mesafe bir metrik değilse bunları kullanmayla …

4
Asimetrik mesafe ölçümleri ile kümeleme
Bir özelliği asimetrik mesafe ölçümü ile nasıl kümelendirirsiniz? Örneğin, bir veri kümesini bir özellik olarak haftanın günleri ile kümelediğinizi varsayalım - Pazartesi ile Cuma arasındaki mesafe, Cuma ile Pazartesi arasındaki mesafeyle aynı değildir. Bunu kümeleme algoritmasının mesafe ölçüsüne nasıl dahil edersiniz?

2
R'de gürültü (DBSCAN) kümelemesi olan uygulamaların yoğunluk tabanlı uzamsal kümelenmesi
Bu soru " R'deki uzamsal verileri kümeleme " olarak başladı ve şimdi DBSCAN sorusuna taşındı. İlk soruya verilen yanıtların önerdiği gibi, DBSCAN hakkında bilgi aradım ve hakkında bazı belgeleri okudum. Yeni sorular ortaya çıktı. DBSCAN bazı parametreler gerektirir, bunlardan biri "mesafe" dir. Verilerim üç boyutlu, boylam, enlem ve sıcaklık olduğundan, …
9 r  clustering  spatial 

3
Yerden tasarruf sağlayan kümeleme
Gördüğüm çoğu kümeleme algoritması, daha büyük veri kümelerinde sorunlu hale gelen tüm noktalar arasında bire bir mesafeler oluşturmakla başlar. Bunu yapmayan var mı? Yoksa bir çeşit kısmi / yaklaşık / kademeli yaklaşımda mı? Hangi kümeleme algoritması / uygulaması O (n ^ 2) alanından daha az yer kaplıyor? Algoritmaların bir listesi …

3
K-Ortalamalar Algoritmasında Döngü
Wiki'ye göre en yaygın kullanılan yakınsama kriteri “değerlendirme değişmemiştir”. Böyle bir yakınsama kriteri kullanırsak bisikletin olup olmayacağını merak ediyordum. Birisi bisiklete binme örneği veren veya bunun imkansız olduğunu kanıtlayan bir makaleye atıfta bulunursa memnun olurum.

4
2 X 3 masasında çoklu post-hoc ki-kare testleri nasıl yapılır?
Veri setim, toplam organizma ölümünü veya bir organizmanın kıyı, orta kanal ve açık deniz olmak üzere üç yer tipinde hayatta kalmasını içeriyor. Aşağıdaki tablodaki sayılar site sayısını temsil eder. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 % 100 mortalitenin meydana geldiği site sayısının site …

2
Bisiklet kullanmaya başlama
Bisikletçiler hakkında sıradan internet araştırmaları yapıyorum. (Wiki makalesini birkaç kez okudum.) Şimdiye kadar, birkaç tanım veya standart terminoloji varmış gibi görünüyor. Bisiklet bulmak için algoritmalarla ilgilenen herkesin okuması gereken standart kağıtlar veya kitaplar olup olmadığını merak ediyordum. Alandaki en son teknolojinin ne olduğunu söylemek mümkün müdür? Genetik algoritmalar kullanarak bisikletçi …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.