Herkes hangi algoritmaların kategorik özelliklerin tek-sıcak kodlu olmasını gerektireceğini ve hangilerinin istemeyeceğini listeleyebilir mi?
AFAIU, belirli verilerle daha fazlasını , belirli algoritmalarla daha azını yapmalıdır . Özellikle, kategorilerde anlamlı bir düzen olup olmadığına bağlıdır.
İki vakayı düşünün. İlkinde kötü, meh, iyi kategorileri var ve ikincisinde elma, portakal, armut var . İlk durumda doğal bir düzen vardır, çünkü meh muhtemelen kötü ve iyi arasındadır , ancak muhtemelen elma, portakal, armutta benzer bir şey olmaz .
İlk vaka için tek-sıcak kodlamadan kaçınırsanız, siparişle ilgili bilgileri "kaybedersiniz". İkinci durum için tek etkin kodlama kullanırsanız, kategorilere doğal olarak doğru olmayan bir sipariş atarsınız.
Algoritma benzerliği hesaplamak için bir mesafe metriği kullandığında bunu yaparım.
Neden? Özelliklerden birinin kategorik bir kötü, meh, iyi olduğunu ve 1'in kötü , 2'nin meh ve 3'ün iyi olması dışında aynı oldukları üç, 1, 2 ve 3 örneğiniz olduğunu varsayalım . Muhtemelen algoritmaya 1'in 2'ye 3'ten daha benzer olduğunu ifade etmek istersiniz.