Kmean kümelenmesi için dirsek noktası olmadığında ne yaparsın


13

Bir dizi kümeyi seçerken, K'nin farklı değerleri için bir dirsek noktası aramanız gerektiğini öğrendim. 1'den 10'a kadar k değerleri için withinss değerlerini çizdim, ancak net görmüyorum dirsek. Böyle bir durumda ne yaparsınız?

Sıkıcı KMeans


2
"SS dirsek" kuralı en iyisi değil, tek bir kümelenme kriteri vardır. Başka deneyin. Verilerinizde kümeler bulunmaması muhtemeldir.
ttnphns

@ttnphns Bahsettiğiniz bu mistik öteki nedir? Verilerimde nasıl kümeler olamaz? Nasıl bilebilirim?
Glen

Yanıtlar:


7

Yanlış yöntem?

Belki probleminiz için yanlış algoritma kullanıyorsunuzdur.

Yanlış önişleme?

K-araçları ön işlemeye son derece duyarlıdır. Bir özellik diğerlerinden çok daha büyük bir ölçekte ise, çıktıya hakim olur. Çıktınız daha sonra etkili bir şekilde 1 boyutlu olacaktır

Sonuçları görselleştirin

Ne yaparsanız yapın, sonuçlarınızı SSQ gibi bir sayıdan başlamaktan başka bir şeyle doğrulamanız gerekir. Bunun yerine görselleştirmeyi düşünün .

Görselleştirme ayrıca verilerinizde yalnızca tek bir küme olduğunu söyleyebilir .


Çok boyutlu veriler için iyi görselleştirme seçenekleri nelerdir?
Jeremy

1
Verilerinize bağlıdır. Bazı veriler iyi yansıtılabilir, çünkü çok daha düşük içsel boyutluluğa sahiptir. Zaman serileri kolayca çizilebilir ve verileriniz serileştirilmiş bir görüntü ise, görüntü olarak görselleştirilsin mi? Herhangi bir yöntemle, görselleştirme bağlıdır senin Hiç tek kalıpta tüm çözüm olmayacak, veri.
ÇIKIŞ - Anony-Mousse

3

Bunun bir yolu, gruplandırmaların anlamlı olup olmadığını görmek için kümelerinizdeki üyeleri belirli bir k için manuel olarak incelemektir (ayırt edilebilir mi?). Bu durum tabloları ve koşullu yollarla yapılabilir. Bunu çeşitli k'ler için yapın ve hangi değerin uygun olduğunu belirleyebilirsiniz.

Daha az öznel bir yol, Silhouette Değerini kullanmaktır:

/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function

Bu, en sevdiğiniz yazılım paketiyle hesaplanabilir. Bağlantıdan:

Bu yöntem sadece grup içi benzerliği en yakın grup benzerliği ile karşılaştırır. Aynı kümenin diğer üyelerine olan herhangi bir veri üyesi ortalama mesafesi, diğer bazı küme üyelerine olan ortalama mesafeden yüksekse, bu değer negatiftir ve kümeleme başarılı olmaz. Diğer yandan, 1'e yakın silhuette değerleri başarılı bir kümeleme işlemini gösterir. 0.5, kümelenme için kesin bir ölçü değildir.


Glen, şahsen cevabın eksik olduğunu düşünüyorum. 1. paragraf belirsiz görünüyor. Bu "manuel inceleme" nedir, prosedürü açıklayabilir misiniz? O zaman, Silhouette ne olduğundan daha az özneldir ? Ve neden?
ttnphns

@ttnphns yanıtı güncellendi.
Glen

contingency tables and conditional meansBu daha mistik. Onlarla ne yapmalıyım ki iyi bir k "öznel olarak" varır?
ttnphns

@ttnphns Posterin bu konuda bir sorusu varsa takip edeceğim. Dediğim gibi gruplaşmaların ayırt edilebilir olup olmadığını kontrol etmelisiniz. Bana öyle geliyor ki.
Glen

Düşük siluet değerleri (~ .35) alırsam, bu verilerin gerçekten iyi kümelere sahip olmadığını gösterebilir?
Jeremy

0
  • K-ortalamaları için hiçbir dirsek, verilerde küme olmadığı anlamına gelmez;
  • Dirsek olmaması, kullanılan algoritmanın kümeleri ayıramayacağı anlamına gelir; (DBSCAN'a karşı eşmerkezli daireler için K-araçlarını düşünün)

Genel olarak şunları düşünebilirsiniz:

  • algoritmanızı ayarlayın;
  • başka bir algoritma kullanın;
  • veri önişleme.

-1

En uygun k değerini bulmak için NbClust paketini kullanabiliriz. Küme sayısını belirlemek için 30 endeks sağlar ve en iyi sonucu önerir.

NbClust (veri = df, mesafe = "öklid", min.nc = 2, max.nc = 15, yöntem = "kmeans", dizin = "tümü")


Siteye Hoşgeldiniz! Bu cevabı genişletebilir misiniz? Yardımcı olsa da, biraz daha detay daha kullanışlı hale getirecektir.
mkt - Monica'yı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.