k-k-medyan mı?


14

K-ortalamaları kümeleme algoritması ve k-medyan olduğunu biliyorum. Biri ortalamayı kümenin merkezi olarak, diğeri medyanı kullanır. Sorum şu: hangisi ne zaman / nerede kullanılır?


Birden fazla boyutunuz varsa , medyanları tanımlamanız (ve belki de hesaplamanız) gerekecektir; sadece her değerde medyan alırsanız, dönme özelliklerini kaybedersiniz. Başka bir olasılık k -medoids
Henry

Yanıtlar:


14

k-anlamına gelir küme içi varyansı en aza indirir, bu da kareli Öklid mesafelerine eşittir.

Genel olarak, aritmetik ortalama bunu yapar. It does not optimize mesafeleri, ancak ortalamasından kare sapmalar.

k-medyanlar Manhattan mesafesine eşit olan mutlak sapmaları en aza indirir.

Genel olarak, eksen başına medyan bunu yapmalıdır. Kareler yerine mutlak sapmaların toplamını (yani sum_i abs (x_i-y_i)) en aza indirmek istiyorsanız, ortalama için iyi bir tahmin edicidir.

Bu doğruluk hakkında bir soru değil. Bu bir doğruluk meselesi. ;-)

İşte karar ağacınız:

  • Mesafeniz Öklid mesafesine kare ise , k-ortalamaları kullanın
  • Sizin mesafe ise Taxicab metrik , kullanım k-medyanları
  • Eğer varsa başka bir mesafe , kullanım k-medoids

Bazı istisnalar: anlatabildiğim kadarıyla, kosinüs benzerliğini en üst düzeye çıkarmak, L2 normalize edilmiş verilerdeki kare Öklid mesafesini en aza indirmekle ilgilidir. Verileriniz L2 normalleştirilmişse; ve her yinelemeyi ortalama olarak normalleştirirseniz, tekrar k-yöntemini kullanabilirsiniz.


Çok boyutlu veriler için bir medyan kavramı üzerinde mutabık kalınan hiçbir benzersiz olmadığı için, medyanın manhattan mesafesini en aza indirdiği ifadesiyle bir miktar sorun yaşıyorum. Bu yanlış değil, ama çok boyutlu bir bağlamda yanıltıcı bir ifade buluyorum. Birçoğu manhattan mesafelerini en aza indirmekle bağlantısı olmayan medyanların çok boyutlu genellemeleri vardır.
Tim Seguine

1
Bunu eksen başına medyan olarak değiştiriyorum. Umarım şimdi daha mutlu olursun.
ÇIKIŞ - Anony-Mousse

2

Ekstrem değerlerin olası etkileri ile ilgili bir analiz yapmak istemiyorsanız k araçlarını kullanın ancak daha doğru olmak istiyorsanız k medyan kullanın


5
Bu iddiaları herhangi bir şekilde destekleyebilir ve / veya açıklayabilir misiniz?
jona

Evet, daha fazla ayrıntı verebilir misiniz lütfen? örnekleri ile?
Jack Twain

2
Bence "Medyan" aykırı değerleri tolere edebilir ama "Ortalama" onlardan tamamen etkilenir. Örneğin: {1,2,3,5,78} veri noktalarına sahipsek, 78'in aykırı olduğu açıktır. Bu verilerin medyan değeri 3 ve ortalaması 17,8'dir. Bu yüzden, medyan bu verileri özetlemenin en iyi yoludur.
Fadwa
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.