KNN ile hangi tip veri normalleştirmesi kullanılmalıdır?


9

İkiden fazla normalleştirme olduğunu biliyorum.

Örneğin,

1- Verileri z-skoru veya t-skoru ile dönüştürme. Buna genellikle standardizasyon denir.

2- Verileri 0 ile 1 arasında olacak şekilde yeniden ölçeklendirme.

Şimdi normalleştirmeye ihtiyacım olursa soru

KNN ile hangi tip normalleştirme kullanılmalıdır? ve neden?

Yanıtlar:


11

K-NN için, verileri 0 ile 1 arasında normalleştirmenizi öneririm .01

k-NN, örnekleri karşılaştırma aracı olarak Öklid mesafesini kullanır . İki nokta arasındaki mesafeyi hesaplamak için, ve X 2 = ( f 1 2 , f 2 2 , . . . , F M 2 ) , f i 1 değeri ix1=(f11,f12,...,f1M)x2=(f21,f22,...,f2M)f1ii- özelliği :x1

d(x1,x2)=(f11-f21)2+(f12-f22)2+...+(f1M-f2M)2

İçin için tüm özellikler olması eşit mesafe hesaplanırken önemi, özellikleri gereken değerler aynı aralığı vardır. Bu ancak normalleştirme ile elde edilebilir.

Bunlar Normalleştirilmeselerdi ve örneğin özelliği değerler bir dizi vardı [ 0 , 1 iken) f 2 değerler bir dizi vardı [ 1 , 10 ) . Mesafe hesaplanırken, ikinci terim birinciden 10 kat daha önemli olacaktır, bu da k-NN'nin birinciden daha fazla ikinci özelliğe güvenmesine neden olur. Normalleştirme, tüm özelliklerin aynı değer aralığına eşlenmesini sağlar .f1[0,1f2[1,10)10

Diğer taraftan, standartlaştırma birçok yararlı özelliğe sahiptir, ancak özelliklerin aynı aralığa eşlendiğinden emin olamaz . Standardizasyon diğer sınıflandırıcılar için en uygun olsa da, k-NN veya başka herhangi bir mesafe bazlı sınıflandırıcı için geçerli değildir.


4
Öklid mesafesi yerine farklı bir mesafe kullandığımda cevabınız aynı mı olacak? Ayrıca değişkenlerin aralığı yaklaşık olarak birbirine yakınsa.
jeza

7
f1[0,1)f2[0,1.2)f220%f1. Bahsetmeyi unuttuğum bir şey, standartlaşmanın, herhangi bir özellik ölçeklendirmesi yapmamaktan çok daha iyi olduğuydu; normalleşmeden daha kötüdür.
Cib2011

Ah, anlıyorum. "normalleşmekten daha kötü" !?
jeza
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.