Basitçe için, uzak gitmeden, İzninizle bir seçenek listesi kopyala-yapıştır kendi işlevinden !kmini
(SPSS için bir makro), koleksiyon "Kümelenme" bulundu burada .
İlk küme merkezlerini oluşturma veya seçme yöntemi. Seç:
- RGC - rastgele alt örneklerin sentroidleri . Veriler rastgele bir şekilde
k
örtüşmeyerek bölünür , üyelik, gruplar ve bu grupların sentroidleri başlangıç merkezleri olarak atanır. Böylece, merkezler hesaplanır, mevcut veri kümesi durumlarından seçilmez. Bu yöntem, birbirlerine ve verilerin genel sentroidine yakın olan merkezler verir.
- RP - rastgele seçilen noktalar .
k
verilerin farklı durumları ilk merkezler olarak rastgele seçilir.
- RUNFP -
en uzak noktalar (çalışan seçim). İlk
k
vakalar merkez olarak alınır ve daha sonra veri setinin geri kalanı boyunca çalışma sırasında merkezler arasında aşamalı olarak değiştirmeler yapılır; yer değiştirmelerin amacı k
, değişken alanda birbirinden en uzak uç noktalarda elde etmektir . Veri bulutundaki çevresel konumları işgal eden bu noktalar (durumlar) üretilen ilk merkezlerdir. (Yöntem, SPSS k-ortalama prosedüründe varsayılan olarak kullanılır QUICK CLUSTER
. SPSS Algoritmaları'ndaki ayrıntılara bakın. Ayrıca burada açıklanmaktadır ).
- SIMFP - en uzak noktalar (basit seçim). İlk merkez, veri kümesinden rastgele bir durum olarak seçilir. 2. merkez, o merkezden en fazla uzak olan durum olarak seçilir. 3. merkez, bu ikisinden (ikisinin en yakınından) en fazla uzak olan durum olarak seçilir, - vb.
- KMPP - rastgele en uzak noktalar veya k-++ anlamına gelir. İlk merkez, veri kümesinden rastgele bir durum olarak seçilir. 2. merkez de rastgele seçilir, ancak bir vakanın seçilme olasılığı, onun (1.) merkeze olan uzaklığı (kare öklid) ile orantılıdır. 3. merkez, bir davanın bu iki merkezden en yakınına orantılı seçim olasılığı ile rastgele seçilir - vb. Arthur, D., Vassilvitskii, S.
- GREP - grup temsil noktaları . Yöntem fikri - merkez olarak toplamak
k
en temsili “vekil” davalar. 1. merkez genel veri cenroidine en yakın vaka olarak alınır. Daha sonra merkezlerin geri kalanı, veri noktalarından, her bir noktanın, her birinden bir noktaya daha yakın (ve kare şeklinde öklid mesafesi açısından ne kadar) olup olmadığı dikkate alınacak şekilde seçilir. mevcut merkezlerden herhangi birine. Her nokta, daha önce toplanmış merkezler tarafından henüz yeterince iyi temsil edilmeyen bazı puan gruplarını temsil etmek için aday olarak incelenir. Bu açıdan en temsilci nokta bir sonraki merkez olarak seçilir. (Kaufman, L. Rousseeuw, PJ Verilerde grup bulma: küme analizine giriş., 1990. Ayrıca bakınız: Pena, JM ve ark. K-ortalama algoritması için dört başlatma yönteminin ampirik olarak karşılaştırılması // Pattern Recognition Lett. 20 (10), 1999,
- [
k
Rastgele ve açgözlülük arasında bir yerde rasgele üniform fakat “rastgele daha az rasgele” noktalar oluşturmak için henüz makroda benim tarafımdan uygulanmayan güzel bir yöntem de var ; bu yöntem için potansiyel teorik temele bakınız ]
- Bir başka yöntem de Ward'ın yöntemiyle hiyerarşik kümeleme yapmaktır. Örnek çok büyükse bunu nesnelerin alt örneğinde yapabilirsiniz. Daha sonra
k
onun tarafından üretilen kümeler, k-ortalamaları prosedürü için ilk tohumlardır. Ward'ın diğer hiyerarşik kümeleme yöntemlerine göre daha çok tercih edilmesi nedeniyle ortak hedef hedefi k-araçlarıyla paylaşmaktadır .
Yöntemler RGC, RP, SIMFP, KMPP rasgele sayılara bağlıdır ve sonuçlarını çalışmadan çalışmaya değiştirebilir.
Yöntem RUNFP, veri kümesindeki vaka sırasına duyarlı olabilir; ancak GREP yöntemi değildir (verilerde birçok özdeş durumun, bağların olduğu durumlar dışında). Yöntem GREP , özellikle (ne zaman) verilerdeki vaka sayısına ( ) göre büyükse tüm k
merkezleri toplayamayabilir . [Makro, verilerin bu yöntemin merkezleri toplamasına izin vermediğini bildirir ]. Yöntem GREP en yavaş olanıdır, [benim uygulamamda] tüm durumlar arasındaki mesafeler matrisini hesaplar, bu nedenle on binlerce veya milyonlarca vaka varsa uygun olmaz. Ancak bunu verilerin rastgele bir alt örneğinde yapabilirsiniz.k
n
k>n/2
k
Şu anda hangi yöntemin "daha iyi" ve hangi durumda olduğunu tartışmıyorum, çünkü şu ana kadar soruyu kapsamlı bir simülasyon araştırması yapmadım. Benim çok ilk ve yüzeysel izlenimler GREP özellikle layık (ama pahalı) ve hala yeterince rekabetçi gerçekten ucuz bir yöntem istiyorsanız, o zaman sadece rastgele k puan, RP, iyi bir seçim oldu.