Centroid bulmak, ortalamaları bulmaktan nasıl farklıdır?


26

Hiyerarşik kümeleme yaparken, kümeler arasındaki mesafeyi ölçmek için birçok ölçüm kullanılabilir. Bu gibi iki ölçüm, merkezlerin ve kümelerdeki veri noktalarının hesaplanmasını ifade eder.

Ortalama ve centroid arasındaki fark nedir? Bunlar kümedeki aynı nokta değil mi?

Yanıtlar:


38

Bildiğim kadarıyla, bir kümenin "ortalaması" ve tek bir kümenin centroidi aynı şeydir, ancak "centroid" terimi çok değişkenli verilerle uğraşırken "ortalama" dan biraz daha kesin olabilir.

Centroid'i bulmak için, puanların konumlarının (aritmetik) ortalaması her bir boyut için ayrı ayrı hesaplanır. Örneğin, puanınız varsa:

  • (-1, 10, 3),
  • (0, 5, 2) ve
  • (1, 20, 10),

daha sonra, merkez ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3) 'te bulunur, bu da basitleştirir (0, 11 2/3, 5). (Not: Centroid olması gerekmez - ve nadiren --- orijinal veri noktalarından biridir)

Merkeze bazen fiziksel yorumuna göre (noktaların tanımladığı bir cismin kütle merkezi) kütle merkezi veya barycenter adı da verilir. Ortalamalar gibi, merkezin konumu da diğer noktalardan toplam kareler arasındaki mesafeyi en aza indirir.

İlgili bir fikir, diğer tüm veri noktalarından "en az benzeyen" veri noktası olan mediddir . Centroidin aksine, medyanın orijinal noktalarından biri olması gerekiyor. Ayrıca, medyan için analgo olan geometrik çok değişkenli, ancak çok değişkenli veriler için de ilginizi çekebilir . Bunların ikisi de sentroidden farklı.

Ancak Gabe'nin cevabında işaret ettiği gibi , kümeleri karşılaştırırken "centroid mesafesi" ile "ortalama mesafe" arasında bir fark vardır. Ağırlık merkezi mesafe kümesi arasında ve sadece arasındaki mesafedir ve . Ortalama mesafe , kümede bulunan noktalar arasındaki ortalama ikili mesafe bulunması ile hesaplanır. Başka bir deyişle, her nokta için küme içinde , sen hesaplamak , , ...B centroid ( A ) centroid ( B ) a i A dist ( a i , b 1 )ABcentroid(A)centroid(B)aiAdist(ai,b1)dist ( bir i , B , n )dist(ai,b2)dist(ai,bn) ve hepsini birlikte ortalayın.


Hangi koşullar altında centroid ve medoid aynı olabilir? Ve ayrıca neden centroid bir dizi noktanın iyi bir temsilcisidir?
raikumardipak

@dkr, Daha fazla (ve daha derinlemesine) yanıtlar almak için bunu yeni bir soru olarak sormak isteyebilirsiniz. Bununla birlikte, fark iki şeye indirgenir: 1) küçültülecek olan şey (centroid için kare mesafe / L2 normu, mediod için mutlak mesafe / L1 normu) ve 2) Çıktının herhangi bir nokta (centroid) olup olmadığı Veri setinde (mediod) bulunmalıdır. Aynı olacağı durumlarda hayal edersiniz, ancak genel olarak, olmayacak. Centroid, aynı nedenlerden dolayı ortalamanın "iyi" olduğu anlamına gelir (noktalara en küçük toplam kare mesafesi) ve ayrıca benzer dezavantajlara sahiptir (örneğin, aykırı değerlere karşı sağlam değildir).
Matt Krause,

4

Bu videoyu görmek yukarıdaki cevap yanlış olabilir: https://www.youtube.com/watch?v=VMyXc3SiEqs O ortalama küme 1'in unsurları ve küme 2 arasındaki mesafeleri tüm kombinasyonları ekler görünüyor - n ^ 2 mesafe bir araya getirildi ve sonra n ^ 2 ile ortalamaya bölün.

Centroid metodu önce kendi içindeki her bir kümenin ortalamasını hesaplar. Sonra bu ortalama noktalar arasındaki bir mesafeyi hesaplar.


1
Merhaba Gabe! Bence videonun bu bölümünden mi bahsediyorsun ? Bildiğim kadarıyla, tek bir kümenin centroid ve ortalaması aynı şeydir, ancak belirttiğiniz gibi, iki küme arasındaki centroid mesafesi ve ortalama mesafe farklı ölçütlerdir. OP'nin eskisini sorduğunu sanıyordum, ancak ikincisini de biraz düzenlemiştim. Bunu işaret ettiğiniz için teşekkür ederiz (+1) ve Çapraz Doğrulama'ya hoş geldiniz!
Matt Krause,

-1

centroid bir kümedeki veri noktalarının ortalamasıdır, veri setinde centroid noktasının bulunması gerekmez; medid ise centroid'e yakın bir veri noktasıdır, medoidin orijinal verilerde bulunması gerekir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.