Kümeleme kalite ölçüsü


17

Ben giriş parametresi (küme sayısı ) ile bir kümeleme algoritması (k-anlamına gelir) var . Kümeleme yaptıktan sonra bu kümelemenin niceliksel bir ölçüsünü almak istiyorum. Kümeleme algoritmasının önemli bir özelliği vardır. İçin k = 2 Beslemem halinde N sonucu bu algoritmaya aralarında anlamlı bir fark gözetilmeksizin veri noktaları I ihtiva eden tek bir küme alacak N - 1 veri noktaları ile bir küme 1 veri noktası. Açıkçası istediğim bu değil. Bu yüzden, bu kümelenmenin makul olduğunu tahmin etmek için bu kalite ölçüsünü hesaplamak istiyorum. İdeal olarak bu önlemleri farklı k için karşılaştırabileceğim.kk=2NN11k. Bu yüzden aralığında kümeleme yapacağım ve en iyi kaliteyi seçeceğim. Bu kalite ölçüsünü nasıl hesaplayabilirim?k

GÜNCELLEME:

İşte kötü bir kümeleme olduğunda bir örnek . Diyelim ki bir düzlemde eşkenar üçgen oluşturan 3 nokta var. Bu noktaları 2 kümeye ayırmak, onları 1 veya 3 kümeye ayırmaktan daha kötüdür.(N1,1)


Bana göre bu belli değil. Gerçekte her zaman farklı boyutlara sahip kümeler görüyorum ...
QUIT - Anony-Mousse

Yanıtlar:


12

Metrik seçimi, kümelenmenin amacını ne düşündüğünüze bağlıdır. Şahsen, kümelenmenin, her biri farklı bir veri oluşturma süreci tarafından üretilen farklı gözlem gruplarını tanımlamakla ilgili olması gerektiğini düşünüyorum. Bu nedenle, bilinen veri oluşturma işlemlerinden veri üreterek bir kümelenmenin kalitesini test edip kalıpların kümeleme tarafından ne sıklıkla yanlış sınıflandırıldığını hesaplayacağım. Tabii ki bu, her bir üretim sürecinden örüntülerin dağılımı hakkında varsayımlar yapmayı gerektiriyordu, ancak denetimli sınıflandırma için tasarlanmış veri kümelerini kullanabilirsiniz.

Diğerleri, kümelemeyi benzer öznitelik değerlerine sahip noktaları bir araya getirmeye çalışmak olarak görür; bu durumda SSE vb. Gibi önlemler uygulanabilir. Bununla birlikte, kümelenmenin bu tanımını, temeldeki dağılımlar hakkında genelleştirilebilir bir şeyden ziyade, yalnızca belirli veri örneği hakkında bir şey söylediğinden oldukça tatmin edici bulmuyorum. Yöntemlerin örtüşen kümelerle nasıl başa çıktığı bu görüşle özel bir sorundur ("veri oluşturma süreci" görünümü için gerçek bir soruna neden olmaz, sadece küme üyeliği olasılıkları elde edersiniz).


3
Model-bazlı kümelenme arasındaki farkı vurgulamak için + 1 genel tamamen uzak temelli denetimsiz kümeleme.
chl

1
Bence her iki amaç farklı ortamlarda kendi ateş kullanımlarına sahip. Aslında sadece eldeki verilere bakmak için yaptığınız birçok bağlam vardı (örn. Aykırı tanım). Ayrıca, farklı veri oluşturma süreçlerine erişmeden önce, en iyi ikinci tanımınızla yapılan keşfe ihtiyacınız var ...
Etienne Low-Décarie

Etienne'ye her iki yöntemin de kullanımları olduğu konusunda hemfikirim. Bununla birlikte, bir gözlemin bir aykırı değer olup olmadığının veri oluşturma süreci hakkında bazı varsayımlar yapıp yapmadığını da söyleyebilirim, bu nedenle ikinci kümelenme biçimi, belki de sadece kendinizi doğru yönlendirmeye çalıştığınızda verileri anlamanın ilk adımı içindir.
Dikran Marsupial

4

Kümeleme denetlenmediğinden, en iyi kümelemenin ne olduğunu önceden bilmek zordur. Bu araştırma konusu. Tanınmış bir kantitatif sosyal bilimci olan Gary King'in bu konuda bir makalesi var.


+! Evet; @Max Bu "açık" kümelenmenin ne olacağı hakkında ne düşünüyorsunuz?

@mbq: Aslında bunun için iyi bir kümelenmenin ne olacağını bilmiyorum. "Açık" ile (N-1, 1) bunun için kesinlikle iyi bir kümelenme olmadığını söylüyorum. Daha iyi bir kümelenme yalnızca bir küme olacaktır, bu nedenle hiçbir kümeleme olmaz. Ya da belki 2'den fazla küme kümelenmesi.
Max

Bağlantınız kopmuş gibi görünüyor.
Etienne Low-Décarie

İşte makaleye güncellenen bağlantı: gking.harvard.edu/files/abs/discov-abs.shtml
Dolan

4

Burada birkaç önleminiz var, ancak daha fazlası var:

SSE: her kümedeki öğelerden alınan kare hatasının toplamı.

Kümeler arası mesafe: her küme sentroidi arasındaki kare mesafesinin toplamı.

Her küme için küme içi mesafe: her kümenin öğelerinden sentroidine kadar olan kare mesafesinin toplamı.

Maksimum Yarıçap: bir örnek ile küme sentroidi arasındaki en büyük mesafe.

Ortalama Yarıçap: bir örnekten küme sentroidine kadar olan en büyük mesafenin küme sayısına bölünmesiyle elde edilen değer.


Küme içi küme mesafesini kullanmayı denedim, ancak bir noktaya sahip bir küme için yararlı bir şey düşünemedim. Ayrıca bir merkez noktam yok. Sadece noktalar arasında mesafeler var.
Max

Kümeler arası mesafe ne kadar yüksek olursa, kümelerin merkezi arasındaki mesafeleri hesaplayarak o kadar iyi ölçebilirsiniz.
mariana soffer

4

Kümeleme Doğrulama alanına girdiniz. Öğrencim, aşağıda açıklanan teknikleri kullanarak doğrulama yaptı:

A. Banerjee ve RN Dave. Hopkins istatistiği ile kümelerin doğrulanması. 2004 IEEE Bulanık Sistemler Uluslararası Konferansı IEEE Kat No04CH37542, 1: s. 149–153, 2004.

Bir küme geçerliyse, veri noktalarının bir küme içinde eşit olarak dağıtılması ilkesine dayanır.

Ancak bundan önce verilerinizde Kümeleme Eğilimi olup olmadığını, yani kümelenmeye ve optimum küme sayısına değip değmeyeceğini belirlemelisiniz:

S. Saitta, B. Raphael ve IFC Smith. Kümeleme için kapsamlı bir geçerlilik endeksi. Intell. Veri Anal., 12 (6): s. 529-548, 2008.


3

Diğerlerinin de belirttiği gibi, "kalite" kümelenmesinin birçok ölçüsü vardır; çoğu program SSE'yi en aza indirir. Tek bir sayı, verilerdeki gürültü veya yöntemdeki gürültü veya Saskatchewan'daki düz minimum - düşük noktalar hakkında çok fazla şey söyleyemez.

Bu yüzden önce "41" e indirmeden önce belirli bir kümelenmeyi görselleştirmeye, hissetmeye çalışın. Sonra 3 koşu yapın: 41, 39, 43 veya 41, 28, 107 SSE'leri alıyor musunuz? Küme boyutları ve yarıçapları nelerdir?

(Eklendi :) Siluet çizimlere ve siluet puanlarına bir göz atın, örneğin Izenman'ın kitabında, Modern Çok Değişkenli İstatistik Teknikleri (2008, 731p, isbn 0387781889).


3

Siluet kümeleme sonuçları değerlendirmek için kullanılabilir. Bunu, bir kümedeki ortalama mesafeyi, en yakın kümedeki noktalara olan ortalama mesafe ile karşılaştırarak yapar.


2

Denetimsiz rasgele ormanda kullanılan gibi bir yöntem kullanılabilir.

Rastgele Orman algoritmaları denetimsiz sınıflandırmayı iki sınıflı bir sorun olarak ele alır, verilerdeki bağımlılık yapısını kaldırarak (randomizasyon) ilk veri kümesinden tamamen farklı bir yapay ve rastgele veri kümesi oluşturulmuştur.

Daha sonra böyle bir yapay ve rastgele veri kümesi oluşturabilir, kümeleme modelinizi uygulayabilir ve gerçek verilerinizde ve rastgele verilerinizde seçtiğiniz metriği (ör. SSE) karşılaştırabilirsiniz.

Rasgeleleştirme, permütasyon, önyükleme, torbalama ve / veya çakıl işleminde karıştırmak, belirli bir kümeleme modelinin size bir metrik kullanarak rastgele verilerinizden gerçek verilerden kaç kat daha fazla değer verdiğini ölçerek P değerine benzer bir ölçü verebilir. seçim (ör. SSE veya torbadan çıkma hatası tahmini).

Bu nedenle metriğiniz, gerçek ve rastgele veriler arasındaki herhangi bir metrikte farktır (olasılık, boyut farkı, ...).

Bunu birçok model için yinelemek modelleri birbirinden ayırmanızı sağlar.

Bu R'de uygulanabilir.

randomforest R'de mevcuttur


+1, bu fikri beğendim; ancak, rasgeleleştirme / veriye izin verme sadece b / t değişkenlerini bozar, tek değişkenli w / i kümeleme varsa bu işe yaramaz.
gung - Monica'yı eski durumuna döndürün

1

Kümeleme algoritması deterministik değilse, kümelenmelerin "kararlılığını" ölçmeye çalışın - her iki gözlemin ne sıklıkta aynı kümeye ait olduğunu bulun. Bu genellikle ilginç bir yöntemdir, kmeans algoritmasında k'yi seçmek için yararlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.