Genellikle, kümelenme analizinde olduğu gibi "ekerken biçeceğiniz gibi" kuvvetli bir analitik teknik olmadığını söylerler.
Küme metaforu . “Bu yöntemi tercih ettim çünkü kendi projemdeki küme kavramımla birleşen kümeleri oluşturuyor (ya da böyle bir şekilde)” . Her kümeleme algoritması veya alt-algoritma / yöntem, bir kümenin karşılık gelen yapısını / yapısını / şeklini belirtir. Hiyerarşik yöntemlere bakarsak, noktalarından birinde bu gözlenen ettik burada da, ve burada. Yani bazı yöntemler prototipik olarak "tip", diğeri "çevreler [çıkar]", yine diğer "[siyasi] platformlar", "sınıflar", "zincirler" vb. Kümeleri verir. Örneğin, müşteri segmentlerimi türler olarak görüyorsam - ortada sıkıştırma (ler) ile az veya çok küresel şekiller, Ward'ın bağlantı yöntemini veya K araçlarını seçeceğim, ancak hiçbir zaman tek bağlantı yöntemini net olarak seçmeyeceğim. Bir odak noktası temsilcisine ihtiyacım olursa medoid metodu kullanabilirim. Çekirdek ve çevresel temsilcileri olmaları için puanları taramam gerekirse, DBSCAN yaklaşımını kullanabilirim.
Veri / yöntem varsayımları . "Benim veri niteliği veya biçim buna zemin hazırlar çünkü bu yöntemi tercih" . Bu önemli ve engin nokta yukarıdaki bağlantımda da belirtilmiştir. Farklı algoritmalar / yöntemler, onlar için farklı türde veriler veya verilere uygulanacak farklı yakınlık ölçütleri gerektirebilir ve bunun tersi durumda, farklı veriler farklı yöntemler gerektirebilir. Nicel yöntemler ve nitel veriler için yöntemler vardır. Karışım nicel + nitel özellikleri, yöntemler arasında seçim kapsamını önemli ölçüde daraltır. Ward's veya K-meansaçıkça veya örtük olarak - temelli (kare) öklid mesafeli yakınlık ölçütünü esas alır ve keyfi ölçüme dayanmaz. İkili veriler, sırayla onlar için bazı yöntemler, örneğin Ward's veya K-means gibi soruları kuvvetle sorgulayacak olan özel benzerlik önlemleri için çağrı yapabilir. Büyük verilerin özel algoritmalara veya özel uygulamalara ihtiyacı olabilir.
İç geçerlik . "Bu yöntemi tercih ettim çünkü bana en net, sıkı ve yalıtılmış kümeleri verdi" . Verileriniz için bu açıdan en iyi sonuçları gösteren algoritmayı / yöntemi seçin. Daha sıkı, yoğun iç kısımdaki kümelerdir ve daha az yoğunluk bunların dışındadır (veya daha geniş olan kümelerdir) - iç geçerlilik daha büyüktür. Değerlendirmek için uygun kümelenme kriterlerini ( bol miktarda - Calinski-Harabasz, Silhouette vb.; Bazen "durma kuralları" olarak da bilinir) seçin ve kullanın . [Aşırı uyuma dikkat edin: tüm kümeleme yöntemleri, iç geçerlilik düzeyinin bir kısmını maksimize etmeye çalışır (kümelemenin ne olduğu1yaklaşık), bu nedenle yüksek geçerlilik kısmen verilen veri setinin tesadüfi özelliğinden dolayı olabilir; Test veri setine sahip olmak her zaman faydalıdır.]
Dış geçerlik . "Bu yöntemi tercih ettim, çünkü bana kendi geçmişlerinden farklı kümeler veya bildiğim gerçekler ile eşleşen kümeler verdi" . Bir küme bölümü, bazı önemli arka plandaki (yani küme analizine katılmamış) özelliklerinden açıkça farklı olan kümeleri sunarsa, o zaman bölümü üreten bu yöntem için bir varlıktır. Farkı kontrol etmek için geçerli olan herhangi bir analizi kullanın; ayrıca bir dizi faydalı dış kümelenme kriteri vardır.(Rand, F ölçüsü, vb.) Dış doğrulama durumunun bir başka çeşidi, kümelerinizi kendiniz yarattığınız gibi, verilerinizdeki gerçek kümeleri (“temel gerçeği”) bir şekilde bildiğiniz zamandır. Öyleyse, kümeleme yönteminizin gerçek kümeleri ne kadar doğru ortaya çıkarabildiği, dış geçerlilik ölçüsüdür.
Geçerlilik süresi . "Bu yöntemi tercih ettim çünkü bana eşdeğer veri örneklerinde çok benzer kümeler veriyor ya da bu tür örneklerin üzerine iyi tahmin ediyor" . Bazıları kümeleme yöntemleriyle daha elverişli, bazıları ise diğer yöntemlerle çeşitli yaklaşımlar ve bunların melezleri vardır. İki ana yaklaşım stabilite kontrolü ve genellenebilirliktirKontrol. Bir kümeleme yönteminin stabilitesini kontrol etmek, biri rastgele bir şekilde kesişen veya tamamen ayrık kümelerde verileri böler veya yeniden örneklendirir ve kümelemeyi her biri için yapar; daha sonra, kümeler arasında sabit olup olmadığına dair bazı ortaya çıkan küme karakteristiği (örneğin kümenin merkezi eğilim konumu) ile ilgili çözümleri eşleştirir ve karşılaştırır. Genelleştirilebilirliği kontrol etmek, bir tren setinde kümelemeyi yapmak ve ardından bir test setinin nesnelerini atamak için ortaya çıkan küme karakteristiğini veya kuralını kullanmak ve ayrıca test setinde kümelemeyi yapmak anlamına gelir. Atama sonucunun ve kümeleme sonucunun test seti nesnelerinin küme üyelikleri daha sonra karşılaştırılır.
Yorumlama . “Bu yöntemi tercih ettim çünkü bana dünyada anlam ifade ettiği konusunda ikna edici olan kümeleri verdi” . İstatistiksel değil - psikolojik doğrulamanız. Sonuçlar sizin için etki alanı ve muhtemelen seyirci / müşteri için ne kadar anlamlı. En iyi yorumlanabilen, baharatlı sonuçları veren yöntemi seçin.
Mağduriyet . Düzenli olarak yapılan bazı araştırmalar ve ara sıra yapılan tüm araştırmalar “Bu yöntemi tercih ettim çünkü verdiğim verilerle benzer sonuçları verdim, bu test ettiğimlerin tümü arasında bir takım diğer yöntemler ile” dedi . Bu, oldukça evrensel bir veri veya oldukça evrensel bir yöntem olduğunu varsayan bir sezgisel fakat sorgulanabilir stratejidir.
Nokta 1 ve 2 teoriktir ve sonucu elde etmeden önce gelir; Bu noktalara münhasır dayanma, kibirli, kendine güvenen keşif stratejisidir. Puan 3, 4 ve 5 ampiriktir ve sonucu takip eder; Bu noktalara münhasır bağlılık, bir bütünlük, her şeyi deneyen keşif stratejisidir. 6. Nokta yaratıcıdır, bu nedenle reddetmeye çalışmak için herhangi bir sonucu reddettiği anlamına gelir. 7. nokta, sadık mauvaise foi'dir.