Bir film M için bir Lojistik Sınıflandırıcı oluşturmak istediğimi varsayalım. Özelliklerim kişinin yaşı, cinsiyeti, mesleği, konumu gibi bir şey olurdu. Yani eğitim seti şöyle bir şey olurdu:
- Yaş Cinsiyet Meslek Konumu Beğen (1) / Beğenmedim (0)
- 23 M Yazılım ABD 1
- 24 F Doktor İngiltere 0
ve böylece .... Şimdi sorum şu, özelliklerimi nasıl ölçeklemeli ve temsil etmeliyim. Düşündüğüm bir yol: Yaşı yaş grupları olarak ayırın, bu yüzden 18-25, 25-35, 35-üstü, M, F cinsiyeti, ABD, İngiltere, Diğerleri gibi konum. Şimdi tüm bu değerler için bir ikili özellik oluşturun, bu nedenle yaş, her biri bir yaş grubuna karşılık gelen 3 ikili özelliğe sahip olacaktır. Yani, ABD'li 28 yaşındaki bir erkek 010 10100 (010-> Yaş Grubu 25-35, 10 -> Erkek, 100 -> ABD) olarak temsil edilir.
Buradaki özellikleri temsil etmenin en iyi yolu ne olabilir? Ayrıca, bazı e.gs fark ettim. Tüm özelliklerin bir şekilde ölçeklendirildiğini / normalleştirildiğini, örneğin Cinsiyet, Erkek ve kadın için 0.0045 ve -.0.0045 olmak üzere iki değerle temsil edilir. Bunun gibi ölçeklendirme / mormalizasyonun nasıl yapılacağı hakkında bir fikrim yok mu?