K-ortalamaları kümeleme algoritması ve k-medyan olduğunu biliyorum. Biri ortalamayı kümenin merkezi olarak, diğeri medyanı kullanır. Sorum şu: hangisi ne zaman / nerede kullanılır?
K-ortalamaları kümeleme algoritması ve k-medyan olduğunu biliyorum. Biri ortalamayı kümenin merkezi olarak, diğeri medyanı kullanır. Sorum şu: hangisi ne zaman / nerede kullanılır?
Yanıtlar:
k-anlamına gelir küme içi varyansı en aza indirir, bu da kareli Öklid mesafelerine eşittir.
Genel olarak, aritmetik ortalama bunu yapar. It does not optimize mesafeleri, ancak ortalamasından kare sapmalar.
k-medyanlar Manhattan mesafesine eşit olan mutlak sapmaları en aza indirir.
Genel olarak, eksen başına medyan bunu yapmalıdır. Kareler yerine mutlak sapmaların toplamını (yani sum_i abs (x_i-y_i)) en aza indirmek istiyorsanız, ortalama için iyi bir tahmin edicidir.
Bu doğruluk hakkında bir soru değil. Bu bir doğruluk meselesi. ;-)
İşte karar ağacınız:
Bazı istisnalar: anlatabildiğim kadarıyla, kosinüs benzerliğini en üst düzeye çıkarmak, L2 normalize edilmiş verilerdeki kare Öklid mesafesini en aza indirmekle ilgilidir. Verileriniz L2 normalleştirilmişse; ve her yinelemeyi ortalama olarak normalleştirirseniz, tekrar k-yöntemini kullanabilirsiniz.
Ekstrem değerlerin olası etkileri ile ilgili bir analiz yapmak istemiyorsanız k araçlarını kullanın ancak daha doğru olmak istiyorsanız k medyan kullanın