Bir kümeleme yöntemi nasıl seçilir? Bir küme çözümü nasıl doğrulanır (yöntem seçimini garanti etmek için)?


35

Küme analizi ile ilgili en büyük sorunlardan biri, kullanılan farklı kümeleme yöntemlerine (hiyerarşik kümelemede farklı bağlantı yöntemleri dahil) dayandığında farklı sonuçlar çıkarmamız gerektiğidir .

Bu konudaki fikrinizi bilmek istiyorum - hangi yöntemi seçeceksiniz ve nasıl. Biri “en iyi kümeleme yöntemi, size doğru cevabı verendir”; ancak küme analizinin denetimsiz bir teknik olması gerektiği yönündeki soruyu sorabilirim - bu nedenle hangi yöntemin ya da bağlantının doğru cevap olduğunu nasıl bilebilirim?

Genel olarak: kümelenme tek başına dayanacak kadar sağlam mı? Ya da ikinci bir yönteme ihtiyacımız var ve her ikisine de dayanarak ortak bir sonuç elde etmek için mi?

Benim sorum sadece kümelenme performansını doğrulamak / değerlendirmek için mümkün yöntemler değil, daha geniş bir konudur - bir temel kümeleme yöntemini / algoritmasını diğerine göre hangi temelde seçeriz / tercih ederiz . Ayrıca, verilerimizi kümelemek için bir yöntem seçerken etrafa bakmamız gereken ortak uyarılar var mı?

Bunun çok genel bir soru olduğunu ve cevaplamanın çok zor olduğunu biliyorum. Sadece bu konuda daha fazla bilgi edinmek için herhangi bir yorumunuz veya tavsiyeniz veya herhangi bir öneriniz olup olmadığını bilmek istiyorum.


Ayrıca bu soruyu kontrol et .
ttnphns

Ve bu bir.
ttnphns

2
Özellikle iç ve dış doğrulama ile ilgili bazı bağlantılar: bu . Ve bu . Ve bu . Ve bu . Ve bu . Ve bu . Ve yonder . Ve daha fazlasını arayın.
ttnphns

Yanıtlar:


50

Genellikle, kümelenme analizinde olduğu gibi "ekerken biçeceğiniz gibi" kuvvetli bir analitik teknik olmadığını söylerler.

Bunun veya bu kümeleme yönteminin "haklılığının" bir dizi boyutunu veya yönünü hayal edebiliyorum :

  1. Küme metaforu . “Bu yöntemi tercih ettim çünkü kendi projemdeki küme kavramımla birleşen kümeleri oluşturuyor (ya da böyle bir şekilde)” . Her kümeleme algoritması veya alt-algoritma / yöntem, bir kümenin karşılık gelen yapısını / yapısını / şeklini belirtir. Hiyerarşik yöntemlere bakarsak, noktalarından birinde bu gözlenen ettik burada da, ve burada. Yani bazı yöntemler prototipik olarak "tip", diğeri "çevreler [çıkar]", yine diğer "[siyasi] platformlar", "sınıflar", "zincirler" vb. Kümeleri verir. Örneğin, müşteri segmentlerimi türler olarak görüyorsam - ortada sıkıştırma (ler) ile az veya çok küresel şekiller, Ward'ın bağlantı yöntemini veya K araçlarını seçeceğim, ancak hiçbir zaman tek bağlantı yöntemini net olarak seçmeyeceğim. Bir odak noktası temsilcisine ihtiyacım olursa medoid metodu kullanabilirim. Çekirdek ve çevresel temsilcileri olmaları için puanları taramam gerekirse, DBSCAN yaklaşımını kullanabilirim.

  2. Veri / yöntem varsayımları . "Benim veri niteliği veya biçim buna zemin hazırlar çünkü bu yöntemi tercih" . Bu önemli ve engin nokta yukarıdaki bağlantımda da belirtilmiştir. Farklı algoritmalar / yöntemler, onlar için farklı türde veriler veya verilere uygulanacak farklı yakınlık ölçütleri gerektirebilir ve bunun tersi durumda, farklı veriler farklı yöntemler gerektirebilir. Nicel yöntemler ve nitel veriler için yöntemler vardır. Karışım nicel + nitel özellikleri, yöntemler arasında seçim kapsamını önemli ölçüde daraltır. Ward's veya K-meansaçıkça veya örtük olarak - temelli (kare) öklid mesafeli yakınlık ölçütünü esas alır ve keyfi ölçüme dayanmaz. İkili veriler, sırayla onlar için bazı yöntemler, örneğin Ward's veya K-means gibi soruları kuvvetle sorgulayacak olan özel benzerlik önlemleri için çağrı yapabilir. Büyük verilerin özel algoritmalara veya özel uygulamalara ihtiyacı olabilir.

  3. İç geçerlik . "Bu yöntemi tercih ettim çünkü bana en net, sıkı ve yalıtılmış kümeleri verdi" . Verileriniz için bu açıdan en iyi sonuçları gösteren algoritmayı / yöntemi seçin. Daha sıkı, yoğun iç kısımdaki kümelerdir ve daha az yoğunluk bunların dışındadır (veya daha geniş olan kümelerdir) - iç geçerlilik daha büyüktür. Değerlendirmek için uygun kümelenme kriterlerini ( bol miktarda - Calinski-Harabasz, Silhouette vb.; Bazen "durma kuralları" olarak da bilinir) seçin ve kullanın . [Aşırı uyuma dikkat edin: tüm kümeleme yöntemleri, iç geçerlilik düzeyinin bir kısmını maksimize etmeye çalışır (kümelemenin ne olduğu1yaklaşık), bu nedenle yüksek geçerlilik kısmen verilen veri setinin tesadüfi özelliğinden dolayı olabilir; Test veri setine sahip olmak her zaman faydalıdır.]

  4. Dış geçerlik . "Bu yöntemi tercih ettim, çünkü bana kendi geçmişlerinden farklı kümeler veya bildiğim gerçekler ile eşleşen kümeler verdi" . Bir küme bölümü, bazı önemli arka plandaki (yani küme analizine katılmamış) özelliklerinden açıkça farklı olan kümeleri sunarsa, o zaman bölümü üreten bu yöntem için bir varlıktır. Farkı kontrol etmek için geçerli olan herhangi bir analizi kullanın; ayrıca bir dizi faydalı dış kümelenme kriteri vardır.(Rand, F ölçüsü, vb.) Dış doğrulama durumunun bir başka çeşidi, kümelerinizi kendiniz yarattığınız gibi, verilerinizdeki gerçek kümeleri (“temel gerçeği”) bir şekilde bildiğiniz zamandır. Öyleyse, kümeleme yönteminizin gerçek kümeleri ne kadar doğru ortaya çıkarabildiği, dış geçerlilik ölçüsüdür.

  5. Geçerlilik süresi . "Bu yöntemi tercih ettim çünkü bana eşdeğer veri örneklerinde çok benzer kümeler veriyor ya da bu tür örneklerin üzerine iyi tahmin ediyor" . Bazıları kümeleme yöntemleriyle daha elverişli, bazıları ise diğer yöntemlerle çeşitli yaklaşımlar ve bunların melezleri vardır. İki ana yaklaşım stabilite kontrolü ve genellenebilirliktirKontrol. Bir kümeleme yönteminin stabilitesini kontrol etmek, biri rastgele bir şekilde kesişen veya tamamen ayrık kümelerde verileri böler veya yeniden örneklendirir ve kümelemeyi her biri için yapar; daha sonra, kümeler arasında sabit olup olmadığına dair bazı ortaya çıkan küme karakteristiği (örneğin kümenin merkezi eğilim konumu) ile ilgili çözümleri eşleştirir ve karşılaştırır. Genelleştirilebilirliği kontrol etmek, bir tren setinde kümelemeyi yapmak ve ardından bir test setinin nesnelerini atamak için ortaya çıkan küme karakteristiğini veya kuralını kullanmak ve ayrıca test setinde kümelemeyi yapmak anlamına gelir. Atama sonucunun ve kümeleme sonucunun test seti nesnelerinin küme üyelikleri daha sonra karşılaştırılır.

  6. Yorumlama . “Bu yöntemi tercih ettim çünkü bana dünyada anlam ifade ettiği konusunda ikna edici olan kümeleri verdi” . İstatistiksel değil - psikolojik doğrulamanız. Sonuçlar sizin için etki alanı ve muhtemelen seyirci / müşteri için ne kadar anlamlı. En iyi yorumlanabilen, baharatlı sonuçları veren yöntemi seçin.

  7. Mağduriyet . Düzenli olarak yapılan bazı araştırmalar ve ara sıra yapılan tüm araştırmalar “Bu yöntemi tercih ettim çünkü verdiğim verilerle benzer sonuçları verdim, bu test ettiğimlerin tümü arasında bir takım diğer yöntemler ile” dedi . Bu, oldukça evrensel bir veri veya oldukça evrensel bir yöntem olduğunu varsayan bir sezgisel fakat sorgulanabilir stratejidir.

Nokta 1 ve 2 teoriktir ve sonucu elde etmeden önce gelir; Bu noktalara münhasır dayanma, kibirli, kendine güvenen keşif stratejisidir. Puan 3, 4 ve 5 ampiriktir ve sonucu takip eder; Bu noktalara münhasır bağlılık, bir bütünlük, her şeyi deneyen keşif stratejisidir. 6. Nokta yaratıcıdır, bu nedenle reddetmeye çalışmak için herhangi bir sonucu reddettiği anlamına gelir. 7. nokta, sadık mauvaise foi'dir.

3 ile 7 arasındaki puanlar, "en iyi" küme sayısının seçiminde hakem olabilir .


1


1
K-anlamında küme içi varyansların ve Ward hiyerarşik kümelemenin yanı sıra Dunn endekslerinin içsel geçerlilik önlemlerini gerçekten seviyorum. Verilerden bağımsızdır ve bazen bazıları sadece belirli algoritmalarla mantıklı olsa da kümeleme algoritmasında bile bağımsızdır.
Douglas De Rizzo Meneghetti,

2
@DouglasDeRizzoMeneghetti Buna katılmıyorum. Verilerden bağımsız değildir (verileriniz üzerinde doğrusallık ve niteliklerin eşitliği gibi verileriniz üzerinde çok güçlü varsayımlar yaparlar) veya kümeleme algoritmasından bağımsız değildir. Aslında, her bir iç ölçü kendi kümeleme algoritmasıdır (bu işlev için en uygun hale getirebilirsiniz - bu genellikle yapmak için çok pahalıdır).
Anony-Mousse,

1
Küme içi varyansların toplamı gibi bazı iç geçerlilik önlemlerinin, küme içi varyansların toplamını minimize etme eğiliminde olan bir küme oluşturma yöntemi ile elde edilmesi durumunda küme içi varyansların toplamını en aza indirmeye meyilliyse ve Dunn gibi bir geçerlilik ölçümünün daha iyi sonuçlandığını anlıyorum. endeksler, iyi kümelerin kompakt ve uzak olduğunu ("kompakt" ve "uzak" kelimelerin yorumlamaya açık kalmasına rağmen) varsaymaktadır, ancak bu önlemleri yalnızca özellik değerleri ve küme üyelikleri ile hesaplayabileceğiniz gerçeği elemanlar onları çok yönlü kılar.
Douglas De Rizzo Meneghetti

9

Çoğunlukla kırmızı bayrak kriteri vardır. Belirli bir yaklaşımın kesin olarak başarısız olacağını söyleyen verilerin özellikleri.

  1. Eğer verilerinizin ne anlama geldiğini bilmiyorsanız, analiz etmeyi bırakın. sadece bulutlardaki hayvanları tahmin ediyorsun.

  2. eğer nitelikler ölçekte değişiyorsa ve lineer değil ya da eğri ise. uygun normalizasyon hakkında çok iyi bir fikriniz yoksa, bu analizinizi mahvedebilir. Dur ve özelliklerini anlamayı öğren, kümelenmek için çok erken.

  3. her özellik eşdeğer (aynı ölçek) ve doğrusal ise ve veri kümenizi ölçmek istiyorsanız (ve en küçük karesel hatanın verileriniz için bir anlamı vardır), k-aracı denemeye değerdir. Nitelikleriniz farklı tür ve ölçeklerde ise, sonuç iyi tanımlanmamıştır. Karşı örnek: yaş ve gelir. Gelir çok çarpık ve x years = y dollarsaçma.

  4. benzerliği veya mesafeyi nasıl ölçeceğiniz konusunda çok net bir fikriniz varsa ( anlamlı bir şekilde; bazı sayıları hesaplama yeteneği yeterli değildir), o zaman hiyerarşik kümeleme ve DBSCAN iyi bir seçimdir. Benzerliği nasıl ölçeceğiniz konusunda hiçbir fikriniz yoksa, önce bu sorunu çözün.

En yaygın sorunun, insanların ilk önce onları anlamaları ve normalleştirmeleri gerektiğinde ve benzerlikleri bulmaları gerektiğinde ham verilerini kümelemeye koyma çabası olduğunu görüyorsunuz.

Örnekler:

  1. RGB alanındaki bir görüntünün pikselleri. En küçük kareler bir anlam ifade eder ve tüm özellikler karşılaştırılabilirdir - k-aracı iyi bir seçimdir.

  2. Coğrafi verileri: en küçük kareler çok uygun değildir. aykırı olacak. ama mesafe çok anlamlı. Çok fazla gürültünüz varsa DBSCAN'ı veya çok temiz verileriniz varsa HAC'ı (hiyerarşik aglomeratif kümelenme) kullanın.

  3. Farklı habitatlarda gözlenen türler. En küçük kareler şüphelidir, ancak örneğin Jaccard benzerliği anlamlıdır. Muhtemelen sadece birkaç gözleminiz vardır ve “yanlış” yaşam alanı yoktur - HAC kullanın.


+1. Ben sadece senin yerine başka bir ifade bulmanı rica ediyorum stop criteria. Bildiğiniz gibi, "kuralları durdurma" veya "durdurma ölçütleri", hiyerarşik kümeleme alanındaki "iç kümeleme ölçütleri" ile eş anlamlıdır . Bu yüzden çok meşgul bir terim. Ancak bu kelimeleri cevabın içinde farklı anlamlarla kastediyorsunuz ve bu okuyucunun kafasını karıştırabilir.
ttnphns

1
"Kırmızı bayrak kriteri" ne dersiniz? HAC için eşiği durdururken, amacınızı anlıyorum.
Anony-Mousse,

Benim için harika, güzel seçim.
ttnphns

2,3 puanda diyorsun (non)linear attributes. Ne demek istiyorsun? Hangi şekilde "doğrusal" bir nitelik? Yoksa doğrusal ilişkilerden , yani kümelerin elipsoid (ve kavisli olmayan) şekillerinden mi bahsediyorsunuz?
ttnphns

Üstel dağılımlı veriler.
Anony-Mousse

3

Bunu yapmanın iyi bir resmi yolu olduğunu sanmıyorum; Bence iyi çözümler, esasen anlamlı olanlardır.

Tabii ki, verileri bölmeyi ve birden fazla kez kümelemeyi deneyebilirsiniz, ama sonra hangisinin yararlı olduğu sorusu hala var.


2
Bence mantıklı bir terim yeterince stresli olamaz. Bu aynı zamanda cevabımın temel noktasıdır - önce verilerinizi anlamalısınız.
Anony-Mousse,

@ Anony-Mousse, sizin tarafınızdan bir overkill. Bahse girerim, verilerini "anlamlandırmayı" bilmeyen veya vermeyi unutmayan kişilerin bu siteyi zor ziyaret ettikleri ve burada sorulan sorular kadar iyi sorular sormadıklarına bahse girerim.
ttnphns

@ttnphns Bu tür insanların bu siteyi ne sıklıkta ziyaret ettiklerini bilmiyorum ve kesinlikle böyle sorular sormuyorlar. Ancak birçok insan küme analizinin bir Excel işlevi gibi çalışmasını bekler. Verileri seçin, "küme" yi tıklayın ve ardından sihirli müşteri segmentleri gelsin. Asla rastgele olmaktan çok daha iyi bir iş gibi görünmüyor. Ve örneğin bu kullanıcı verilerini anlamadı: stats.stackexchange.com/q/195521/7828
Anony-Mousse
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.