Benim sorum şu ki, lojistik regresyona uymadan önce tüm değişkenlerin [0,1] arasında aynı ölçeğe sahip olduğundan emin olmak için veri setini standartlaştırmamız gerekiyor. Formül:
Veri setimin 2 değişkeni var, iki kanal için de aynı şeyi tarif ediyorlar, ama hacim farklı. İki mağazada yapılan müşteri ziyaretlerinin sayısının, burada bir müşterinin alım yapıp yapmadığını söyleyin. Çünkü bir müşteri, satın almadan önce ikinci mağazayı iki kez veya ilk mağazayı iki kez ziyaret edebilir. ancak ilk mağaza için yapılan toplam müşteri ziyareti sayısı, ikinci mağazadan 10 kat daha fazladır. Bu lojistik regresyona uyduğumda standardizasyon olmadan coef(store1)=37, coef(store2)=13
; eğer verileri standartlaştırsam, o zaman coef(store1)=133, coef(store2)=11
. Bunun gibi bir şey. Hangi yaklaşım daha anlamlı?
Ya bir karar ağacı modeli uyguluyorsam? Ağaç yapı modellerinin standardizasyona ihtiyacı olmadığını biliyorum çünkü modelin kendisi ayarlayacaktır. Ama hepinizi kontrol ediyorum.
C
değiştiği anlamına gelir . Bu yüzden C
verileri standartlaştırdıktan sonra seçim yapmanız gerekir .