K-araçlarını uygulamadan önce en iyi (önerilen) ön işleme adımları nelerdir?
K-araçlarını uygulamadan önce en iyi (önerilen) ön işleme adımları nelerdir?
Yanıtlar:
Eğer değişkenleriniz birbiriyle karşılaştırılamaz birimler ise (örneğin cm cinsinden yükseklik ve kg cinsinden ağırlık) varsa, tabii ki değişkenleri standartlaştırmalısınız. Değişkenler aynı birimler olsa da, oldukça farklı değişkenler gösterse de, K-araçlarından önce standart hale getirmek hala iyi bir fikirdir. Görüyorsunuz, K-aracı kümelenme, tüm alan yönlerinde "izotropiktir" ve bu nedenle daha fazla ya da daha az yuvarlak (uzun) kümeler üretme eğilimindedir. Bu durumda, eşit olmayan değişkenler bırakmak, küçük değişkenli değişkenlere daha fazla ağırlık koymakla eşdeğerdir, bu nedenle kümeler büyük değişkenli değişkenler boyunca ayrılma eğiliminde olacaktır.
Hatırlatmaya değer başka bir şey de K-kümesinin kümelenme sonuçlarının, veri kümesindeki nesnelerin sırasına potansiyel olarak duyarlı olduğu anlamına gelir . Gerekçeli bir uygulama analizi birkaç kez çalıştırmak, nesne sırasını randomize etmek olacaktır; daha sonra, bu koşuların küme merkezlerini ortalayın ve merkezleri analizin son bir çalışması için başlangıç merkezleri olarak girin.
İşte kümelenmedeki özelliklerin standartlaştırılması veya diğer çok değişkenli analizler hakkında genel bir akıl yürütme.
Spesifik olarak, (1) bazı merkez başlatma yöntemleri vaka sırasına duyarlıdır; (2) başlatma yöntemi hassas olmasa bile, sonuçlar bazen başlangıç merkezlerinin programa tanıtılması sırasına bağlı olabilir (özellikle, bağlı olduğunda veriler içinde eşit mesafeler varsa); (3) k-anlamına gelir algoritmasının sürümü , vaka sırasına karşı doğal olarak hassastır (bu sürümde - genellikle çevrimiçi kümelenmeden ayrı olarak kullanılmaz - centroidlerin yeniden hesaplanması, her bir vaka yeniden atandıktan sonra gerçekleşir) başka bir küme).
Verilerinize bağlı sanırım. Verilerinizdeki eğilimlerin büyüklüğünden bağımsız olarak kümelenmesini istiyorsanız, ortalamanız gerekir. Örneğin. Bazı gen ekspresyon profiline sahip olduğunuzu ve gen ekspresyonundaki trendleri görmek istediğinizi varsayalım, o zaman ortalama merkezleme yapmadan, düşük ekspresyon genleriniz trendlerden bağımsız olarak bir araya ve yüksek ekspresyon genlerinden uzaklaşacaktır. Merkezleme, benzer ifade modelleriyle birlikte kümeleri birleştiren genleri (hem yüksek hem de düşük ifade) yapar.