Yapay sinir ağları gibi birçok makine öğrenimi algoritması sayıları ele almayı beklemektedir. Yani, kategorik verileriniz olduğunda, dönüştürmeniz gerekir. Kategorik olarak, örneğin:
Araba markaları: Audi, BMW, Chevrolet ... Kullanıcı kimlikleri: 1, 25, 26, 28 ...
Kullanıcı kimlikleri sayı olsa da, bunlar yalnızca etiketlerdir ve yaş veya para toplamı gibi süreklilik açısından herhangi bir anlam ifade etmez.
Yani, temel yaklaşım kategorileri kodlamak için ikili vektörler kullanıyor gibi görünüyor:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Birkaç kategori olduğunda sorun yok, ancak bunun ötesinde biraz verimsiz görünüyor. Örneğin, kodlanacak 10.000 kullanıcı kimliğiniz varsa, bu 10 000 özelliktir.
Soru, daha iyi bir yol var mı? Belki bir olasılıkla ilgili?