Küme sayısını önceden belirtmeyi gerektirmeyen kümeleme yöntemleri


17

Küme sayısını belirtmemiz gerekmeyen "parametrik olmayan" kümeleme yöntemleri var mı? Ve küme başına nokta sayısı gibi diğer parametreler vb.

Yanıtlar:


22

Küme sayısını önceden belirtmenizi gerektiren kümeleme algoritmaları küçük bir azınlıktır. Çok fazla algoritma var. Özetlemek zordur; biraz kedi olmayan herhangi bir organizmanın tanımını istemek gibi.

Kümeleme algoritmaları genellikle geniş krallıklara ayrılır:

  1. Bölümleme algoritmaları ( k-araçları ve dölleri gibi)
  2. Hiyerarşik kümeleme ( @Tim'in açıkladığı gibi )
  3. Yoğunluk temelli kümeleme ( DBSCAN gibi )
  4. Modele dayalı kümeleme (örn. Sonlu Gauss karışım modelleri veya Gizli Sınıf Analizi )

Ek kategoriler olabilir ve insanlar bu kategorilere ve hangi kategoride hangi algoritmanın hangi kategoriye girdiğine katılmayabilirler, çünkü bu buluşsaldır. Bununla birlikte, bu şema gibi bir şey yaygındır. Bundan yola çıkarak, esas olarak sadece bulunacak küme sayısının önceden belirlenmesini gerektiren bölümleme yöntemleri (1). Başka hangi bilgilerin önceden belirtilmesi gerektiği (örneğin, küme başına nokta sayısı) ve çeşitli algoritmaları 'parametrik olmayan' olarak adlandırmanın makul olup olmadığı da benzer şekilde oldukça değişken ve özetlenmesi zordur.

Hiyerarşik kümeleme, k-araçlarının yaptığı gibi kümelerin sayısını önceden belirtmenizi gerektirmez , ancak çıktınızdan bir dizi küme seçersiniz. Öte yandan, DBSCAN her ikisini de gerektirmez (ancak bir 'mahalle' için minimum sayıda nokta belirtilmesini gerektirir - varsayılanlar olmasına rağmen, bir anlamda bunu belirtmeyi atlayabilirsiniz - ki bu da kümedeki desen sayısı). GMM bu üçünden bile birini gerektirmez, ancak veri oluşturma süreci hakkında parametrik varsayımlar gerektirir. Bildiğim kadarıyla, asla bir dizi küme, küme başına minimum veri veya kümeler içindeki herhangi bir veri düzeni / düzenlemesi belirtmenizi gerektirmeyen bir kümeleme algoritması yoktur. Nasıl olabileceğini göremiyorum.

Farklı kümeleme algoritmalarına genel bir bakış okumanıza yardımcı olabilir. Aşağıdakiler başlamak için bir yer olabilir:

  • Berkhin, P. "Kümeleme Veri Madenciliği Teknikleri Araştırması" ( pdf )

# 4 ile kafam karıştı: Eğer bir Gauss karışım modeline veri uyuyorsa, o zaman uygun Gauss sayısını seçmeliyiz, yani kümelerin sayısı önceden belirtilmelidir. Eğer öyleyse, neden "öncelikle sadece" # 1'in bunu gerektirdiğini söylüyorsunuz?
amip diyor Reinstate Monica

@ amoeba, model tabanlı yönteme ve nasıl uygulandığına bağlıdır. GMM'ler genellikle bazı kriterleri en aza indirgemek için uygundur (ör., OLS regresyonu, burada olduğu gibi ). Öyleyse, küme sayısını önceden belirtmezsiniz. Başka bir uygulamaya göre yapsanız bile, model tabanlı yöntemler için tipik bir özellik değildir.
gung - Monica'yı eski

Bağlantılı cevapta (veya belki de karşılık gelen R fonksiyonunun sizin için yaptığı) muhtemelen GMM'leri 1, 2, 3, 4 vb. Kümeleriyle uydurmak, ortaya çıkan BIC'leri karşılaştırmak ve "optimal" i seçmek bir, verim k=3. Bunu hala kümelerin sayısını önceden belirleme ve en uygun modeli seçmek için bazı ek genel sezgisel tarama olarak tarif ederdim , ancak genel olarak,könceden belirtilmesi gerekmez. Ancak, B-araçları k-araçlarıyla da kullanılamaz mı? Eğer öyleyse, k-araçları ve GMM aynı teknede gibi görünüyor.
amip diyor Reinstate Monica

Burada tartışmanızı gerçekten takip etmiyorum, @amoeba. OLS algoritması ile basit bir regresyon modelini taktığınızda, eğimi ve kesişmeyi önceden belirlediğinizi veya algoritmanın bir kriteri optimize ederek bunları belirlediğini söyleyebilir misiniz? İkincisi, burada neyin farklı olduğunu görmüyorum. K'yi önceden belirten bir bölümü bulmak için adımlarından biri olarak k-araçlarını kullanan yeni bir meta-algoritma oluşturabileceğiniz kesinlikle doğrudur, ancak bu meta-algoritma k-ortalamaları olmayacaktır.
gung - Monica'yı eski

1
@amoeba, bu anlamsal bir sorun gibi görünüyor, ancak bir GMM'ye uymak için kullanılan standart algoritmalar tipik olarak bir kriteri optimize ediyor. Örneğin, bir Mclustkullanım, BIC'yi optimize etmek için tasarlanmıştır, ancak AIC veya bir dizi olabilirlik oranı testi kullanılabilir. Sanırım bir meta-algoritma diyebilirsiniz, b / c kurucu adımlara sahiptir (örn. EM), ama kullandığınız algoritmadır ve her halükarda k önceden belirtmenizi gerektirmez. Bağlantılı örneğimde, orada k önceden belirtmediğimi açıkça görebilirsiniz.
gung - Monica'yı eski

13

Bunun en basit örneği, her bir noktayı bir mesafe ölçüsü kullanarak birbirleriyle karşılaştırdığınız ve daha sonra birleştirilmiş sözde nokta oluşturmak için en küçük mesafeye sahip çifti birleştirdiğiniz hiyerarşik kümelemedir (örn. B ve c , bc'yi resimdeki gibi yapar altında). Daha sonra noktaları ve sözde noktaları birleştirerek, her nokta grafikle birleştirilene kadar ikili mesafelerini temel alarak prosedürü tekrarlayın.

Wikipedia illüstrasyon

(kaynak: https://en.wikipedia.org/wiki/Hierarchical_clustering )

Prosedür parametrik değildir ve bunun için ihtiyacınız olan tek şey mesafe ölçüsüdür. Sonunda, bu prosedür kullanılarak oluşturulan ağaç grafiğini nasıl budanacağınıza karar vermeniz gerekir , bu nedenle beklenen sayıda küme hakkında bir karar verilmesi gerekir.


Budama bir şekilde küme numarasına karar verdiğiniz anlamına gelmiyor mu?
Learn_and_Share

1
@MedNait ben de öyle dedim. Küme analizinde her zaman böyle bir karar vermek zorundasınız, tek soru nasıl yapıldığıdır - örneğin keyfi olabilir veya olasılık tabanlı model uyumu vb.Gibi bazı makul kriterlere dayanabilir.
Tim

1
Tam olarak neyin peşinde olduğunuza bağlıdır, @MedNait. Hiyerarşik kümeleme, kümelerin sayısını, k-araçlarının yaptığı gibi önceden belirtmenizi gerektirmez , ancak çıktınızdan bir dizi küme seçersiniz. Öte yandan, DBSCAN ikisini de gerektirmez (ancak 'mahalle' için minimum sayıda nokta belirtilmesini gerektirir - varsayılanlar olsa da - bu da bir kümedeki desen sayısına zemin verir) . GMM bunu bile gerektirmez, ancak veri oluşturma süreci hakkında parametrik varsayımlar gerektirir. Vb.
gung - eski durumuna monica

10

Parametreler iyi!

"Parametresiz" yöntem, özelleştirme olmadan yalnızca tek bir çekim (belki de rastgele olma dışında) elde edeceğiniz anlamına gelir olanakları .

Kümelenme bir keşif tekniğidir. Tek bir "doğru" kümeleme olduğunu varsaymamalısınız . Keşfetmekle ilgilenmeyi tercih etmelisin fazla bilgi edinmek için aynı verilerin farklı kümelenmelerini . Kümelemeyi bir kara kutu gibi ele almak hiçbir zaman iyi sonuç vermez.

Örneğin, mesafe işlevini özelleştirmek isteyebilirsiniz verilerinize bağlı olarak kullanılan (bu aynı zamanda bir parametredir!) Sonuç çok kaba ise, daha iyi bir sonuç elde etmek veya çok iyi olup olmadığını öğrenmek istersiniz. , daha kaba bir sürümünü edinin.

En iyi yöntemler, hiyerarşik kümelemedeki dendrogram gibi, sonuçta iyi gezinmenizi sağlayan yöntemlerdir. Daha sonra alt yapıları kolayca keşfedebilirsiniz.


0

Dirichlet karışım modellerine göz atın . Önceden küme sayısını bilmiyorsanız, verileri anlamanın iyi bir yolunu sunarlar. Ancak, verilerinizin ihlal edebileceği kümelerin şekilleri hakkında varsayımlar yaparlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.