K-ortalama kümelemesi için ortalama normalizasyon ve özellik ölçeklendirmesi gerekli midir?

K-araçlarını uygulamadan önce en iyi (önerilen) ön işleme adımları nelerdir?

clustering normalization k-means

— pedrosaurio
kaynak

Bunu faydalı bulabilirsiniz: stats.stackexchange.com/q/19216/6637

— Dov

Yanıtlar:

Eğer değişkenleriniz birbiriyle karşılaştırılamaz birimler ise (örneğin cm cinsinden yükseklik ve kg cinsinden ağırlık) varsa, tabii ki değişkenleri standartlaştırmalısınız. Değişkenler aynı birimler olsa da, oldukça farklı değişkenler gösterse de, K-araçlarından önce standart hale getirmek hala iyi bir fikirdir. Görüyorsunuz, K-aracı kümelenme, tüm alan yönlerinde "izotropiktir" ve bu nedenle daha fazla ya da daha az yuvarlak (uzun) kümeler üretme eğilimindedir. Bu durumda, eşit olmayan değişkenler bırakmak, küçük değişkenli değişkenlere daha fazla ağırlık koymakla eşdeğerdir, bu nedenle kümeler büyük değişkenli değişkenler boyunca ayrılma eğiliminde olacaktır.

Hatırlatmaya değer başka bir şey de K-kümesinin kümelenme sonuçlarının, veri kümesindeki nesnelerin sırasına potansiyel olarak duyarlı olduğu anlamına gelir . Gerekçeli bir uygulama analizi birkaç kez çalıştırmak, nesne sırasını randomize etmek olacaktır; daha sonra, bu koşuların küme merkezlerini ortalayın ve merkezleri analizin son bir çalışması için başlangıç merkezleri olarak girin. $^1$

İşte kümelenmedeki özelliklerin standartlaştırılması veya diğer çok değişkenli analizler hakkında genel bir akıl yürütme.

$^1$ Spesifik olarak, (1) bazı merkez başlatma yöntemleri vaka sırasına duyarlıdır; (2) başlatma yöntemi hassas olmasa bile, sonuçlar bazen başlangıç merkezlerinin programa tanıtılması sırasına bağlı olabilir (özellikle, bağlı olduğunda veriler içinde eşit mesafeler varsa); (3) k-anlamına gelir algoritmasının sürümü , vaka sırasına karşı doğal olarak hassastır (bu sürümde - genellikle çevrimiçi kümelenmeden ayrı olarak kullanılmaz - centroidlerin yeniden hesaplanması, her bir vaka yeniden atandıktan sonra gerçekleşir) başka bir küme).

— ttnphns
kaynak

Rastgele, yeniden koşma, ortalama alma ve son koşma çok iyi bir tavsiyedir. Thanks

— pedrosaurio

K-araçları siparişe nasıl duyarlı olabilir?

— SmallChess

@StudentT, bunun için bir dipnot ekledim. Teşekkür ederim.

— ttnphns

@ttnphns, değişkenlerin "oldukça farklı değişkenlere" sahip olduğunu nicel olarak nasıl belirler?

— Herman Toothrot

@ camillejr, lütfen bu Q sayfasını kontrol ederek başlayın: stats.stackexchange.com/q/418427/3277 .

— ttnphns

Verilerinize bağlı sanırım. Verilerinizdeki eğilimlerin büyüklüğünden bağımsız olarak kümelenmesini istiyorsanız, ortalamanız gerekir. Örneğin. Bazı gen ekspresyon profiline sahip olduğunuzu ve gen ekspresyonundaki trendleri görmek istediğinizi varsayalım, o zaman ortalama merkezleme yapmadan, düşük ekspresyon genleriniz trendlerden bağımsız olarak bir araya ve yüksek ekspresyon genlerinden uzaklaşacaktır. Merkezleme, benzer ifade modelleriyle birlikte kümeleri birleştiren genleri (hem yüksek hem de düşük ifade) yapar.

— Nightwriter
kaynak

Aslında kendi ölçeğine sahip farklı özellikleri karşılaştırıyorum. Örneğin, yaklaşık 0,3 ile 0,5 arasında değişen GC içeriğini küçük görünebilir ancak fark oldukça önemlidir; diğer bazı özellikler daha geniş aralıklara sahipken, bazıları çok küçük ölçeklerde çeşitlilik gösterir.

— pedrosaurio

Demek farklı faktörler kümeliyorsunuz? Belki biraz kilo veya değerlerin dönüşümünü kullanabilir.

— Nightwriter

Hayır, tüm sürekli değişkenleri karşılaştıracağım

— pedrosaurio