Eğer varsa rastgele sizin 5 vasıta olacak neredeyse çakıştığı 5 alt örneklere örnek bölün. Bu tür yakın noktaları ilk küme merkezleri haline getirmenin anlamı nedir?
Birçok K-aracı uygulamasında, ilk küme merkezlerinin varsayılan seçimi tam tersi düşünceye dayanır: en uzak olan 5 noktayı bulmak ve onları ilk merkezler yapmak. Bu uzak noktaları bulmanın yolu ne olabilir diye sorabilirsiniz? SPSS'in K-araçlarının bunun için yaptığı şey:
Veri kümesinin herhangi bir k vakasını (noktası) başlangıç merkezleri olarak alın. Geri kalan tüm durumlar, aşağıdaki koşullar ile bunları başlangıç merkezleri olarak değiştirme yeteneği açısından kontrol edilmektedir:
- a) Dava, merkeze en yakın merkezden birbirine en yakın iki merkezden daha uzaksa, dava, ikincisinin ortasına daha yakın olduğu ikisinin yerini alır.
- b) Vaka, kendisine en yakın merkez ile bu merkeze en yakın merkez arasındaki mesafeden daha yakın 2. merkezden daha uzaksa, dava kendisine en yakın merkezin yerine geçer.
Koşul (a) karşılanmazsa koşul (b) kontrol edilir; eğer tatmin olmazsa da dava merkez haline gelmez. Durumlarda aracılığıyla böyle çalışmasının sonucu olarak elde k başlangıç merkezleri haline bulut içinde azami vakaları. Bu algo'nun sonucu, yeterince sağlam olmasına rağmen, "herhangi bir k vakasının" başlangıç seçimine ve veri kümesindeki vakaların sıralama düzenine tamamen duyarsız değildir ; bu nedenle, K-araçlarında her zaman olduğu gibi, birkaç rastgele başlatma denemesi hala memnuniyetle karşılanmaktadır .
Cevabımı , k-araçları için popüler başlatma yöntemlerinin bir listesiyle görün . Rastgele alt örneklere bölme yöntemi (burada ben ve diğerleri tarafından eleştirilir) ve SPSS tarafından kullanılan açıklanan yöntem de listede yer almaktadır.