«clustering» etiketlenmiş sorular

Küme analizi, sınıf etiketleri gibi önceden var olan bilgileri kullanmadan, verileri karşılıklı "benzerliklerine" göre nesnelerin alt kümelerine bölme görevidir. [Kümelenmiş standart hatalar ve / veya küme örnekleri bu şekilde etiketlenmelidir; onlar için "kümeleme" etiketini KULLANMAYIN.]

1
DBSCAN için eps ve minPts seçme rutini
DBSCAN, bazı literatürlere göre en çok atıf yapılan kümeleme algoritmasıdır ve yoğunluğa bağlı olarak rastgele şekil kümeleri bulabilir. İki parametre eps (mahalle yarıçapı olarak) ve minPts (bir noktayı çekirdek nokta olarak kabul etmek için minimum komşu olarak) yüksek oranda onlara bağlı olduğuna inanıyorum. Bu parametreleri seçmek için rutin veya yaygın …

2
R'de bulunan ve yeni bir veri kümesine kümeler atayan kümelerin merkezlerini alan bir işlev var mı?
Çok boyutlu bir veri setinin iki kısmı var, diyelim ki trainve test. Ve tren veri setine dayalı bir model oluşturmak ve test veri setinde doğrulamak istiyorum. Küme sayısı bilinmektedir. R'de k-ortalamaları kümelemeyi uygulamaya çalıştım ve kümelerin merkezlerini içeren bir nesne aldım: kClust <- kmeans(train, centers=N, nstart=M) R'de bulunan ve test …
14 r  clustering  k-means 


3
Kmeans çalıştırmadan önce korelasyonlu / doğrusal olan değişkenleri düşürmem gerekir mi?
Müşteri kümelerini tanımlamak için kmeans kullanıyorum. Kümeleri tanımlamak için yaklaşık 100 değişkenim var. Bu değişkenlerin her biri, bir müşterinin bir kategoriye yaptığı harcama yüzdesini temsil eder. Yani, 100 kategorim varsa, bu değişkenlerin toplamı her müşteri için% 100 olacak şekilde 100 değişkenim var. Şimdi, bu değişkenler birbiriyle güçlü bir şekilde ilişkilidir. …


5
Mesafeyi (Öklid) benzerlik puanına nasıl dönüştürebilirim?
Ben kullanıyorum kkk hoparlör sesleri küme kümeleme demektir. Bir ifadeyi kümelenmiş hoparlör verileriyle karşılaştırdığımda (Öklid mesafesine dayalı) ortalama bozulma elde ederim. Bu mesafe aralığında olabilir [0,∞][0,∞][0,\infty]. Bu mesafeyi [0,1][0,1][0,1] benzerlik skoruna dönüştürmek istiyorum . Lütfen bunu nasıl başarabileceğim konusunda bana yol gösterin.

1
Tekilleştirme işleminde son teknoloji
Kayıt tekilleştirme işleminde en gelişmiş yöntemler nelerdir? Veri tekilleştirme de denir: kayıt bağlantısı, varlık çözümü, kimlik çözümü, birleştirme / temizleme. Örneğin CBLOCK [1] hakkında bilgim var. Yanıtların ayrıca yöntemleri uygulayan mevcut yazılımlara referansları da içermesi hoşuma gider. Örneğin Mahout'un gölgelik kümelemeyi uyguladığını biliyorum . Lucene kullanan Duke da var . …

3
R'deki Büyük Verileri Kümele ve Örnekleme Alakalı mı?
Veri biliminde yeniyim ve R'de 200.000 satır ve 50 sütun içeren bir veri kümesinde kümeleri bulmakta sorun yaşıyorum. Verilerin hem sayısal hem de nominal değişkenleri olduğundan, Öklid uzaklık ölçüsü kullanan K-araçları gibi yöntemler uygun bir seçim gibi görünmemektedir. Bu yüzden bir mesafe matrisini girdi olarak kabul eden PAM, agnes ve …

5
Zamansal veriler için uygun kümeleme teknikleri?
Etkinlik sıklıkları hakkında geçici verilerim var. Verilerdeki benzer aktivite seviyelerine sahip farklı zaman aralıklarını gösteren kümeleri tanımlamak istiyorum. İdeal kümeleri tanımlamak istediğiniz olmadan kümeler önsel sayısını belirterek. Uygun kümeleme teknikleri nelerdir? Sorumun yanıtlaması için yeterli bilgi içermiyorsa, uygun kümeleme tekniklerini belirlemek için sağlamam gereken bilgiler nelerdir? Aşağıda hayal ettiğim veri …

4
K-ortalamaları veri kümesinin rasgele alt örnekleri aracılığıyla başlatmak?
Belirli bir veri kümem varsa, küme merkezlerini bu veri kümesinin rasgele örneklerini kullanarak başlatmak ne kadar akıllı olurdu? Örneğin, istediğimi varsayalım 5 clusters. Orijinal veri kümesinden 5 random samplessöz ediyorum size=20%. Daha sonra bu 5 rastgele örneğin her birini ortalayabilir ve bu araçları ilk 5 küme merkezim olarak kullanabilir miyim? …

2
Küme analizi sonuçlarını doğrulamak için istatistiksel anlamlılık testi kullanma
Küme analizi sonuçlarını doğrulamak için istatistiksel anlamlılık testinin (SST) kullanımını araştırıyorum. Bu konuyla ilgili çeşitli makaleler buldum, örneğin " Yüksek Boyut, Düşük Örnek Büyüklüğü Veri için Kümeleşmesinin İstatistiksel Tespit edilen önemli fi cance tarafından" Liu, Yufeng vd. (2008) " Küme analizinde bazı anlamlılık testleri hakkında ", yazan Bock (1985) Ancak, …

2
Kümeleme sonuçlarının karşılaştırmasını anlama
Verileri gruplara ayırmayı deniyorum. Bu konuda oldukça yeniyim ve bazı analizlerin çıktılarını anlamaya çalışıyorum. Quick-R'den örnekler kullanarak çeşitli Rpaketler önerilir. Ben ( fpcve kmeansişlevini kullanarak) bu paketlerin iki kullanmayı denedim mclust. Bu analizin anlamadığım bir yönü sonuçların karşılaştırılmasıdır. # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) fpc Kılavuzun ilgili …
13 r  clustering 

1
Kement için LARS ve koordinat inişi
L1 düzenli lineer regresyonu takmak için koordinat inişine karşı LARS [1] kullanmanın avantajları ve dezavantajları nelerdir? Ben esas olarak performans yönleriyle ilgileniyorum (sorunlarım Nyüzbinlerce ve p<20'de olma eğilimindedir ). Ancak, diğer görüşler de takdir edilecektir. edit: Soruyu gönderdiğimden beri, chl, Friedman ve arkadaşları tarafından koordinat inişinin diğer yöntemlerden önemli ölçüde …



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.