Uzun lafın kısası : @untitledprogrammer'ın söylediklerini yapın, her iki modeli de deneyin ve birini seçmek için çapraz doğrulayın.
Hem karar ağaçları (uygulamaya bağlı olarak, örneğin C4.5) hem de lojistik regresyon, sürekli ve kategorik verileri gayet iyi idare edebilmelidir. Lojistik regresyon için, kategorik değişkenlerinizi kukla kodlamak isteyeceksiniz .
@Untitledprogrammer'ın belirttiği gibi, hangi tekniğin sadece sahip olduğunuz özellik türlerine göre sürekli veya başka şekilde daha iyi olacağını bir priori bilmek zor. Bu gerçekten sizin probleminize ve sahip olduğunuz verilere bağlıdır. (Bkz. Ücretsiz Öğle Yemeği Teoremi )
Bununla birlikte, bir lojistik regresyon modelinin özellik alanınızda tek bir doğrusal karar sınırı aradığını, buna karşılık bir karar ağacı esasen özellik alanınızı eksene hizalanmış doğrusal karar sınırlarını kullanarak yarı boşluklara böldüğünü unutmayın. Net etki, doğrusal olmayan bir karar sınırına sahip olmanızdır, muhtemelen birden fazla.
Bu, veri noktalarınız tek bir köprü ile kolayca ayrılmadığında güzeldir, ancak diğer taraftan, karar ağaçları o kadar esnektir ki aşırı sığmaya eğilimlidirler. Bununla mücadele etmek için budamayı deneyebilirsiniz. Lojistik regresyon, aşırı donmaya karşı daha az duyarlı (ancak bağışık değil!) Olma eğilimindedir.
Son olarak, göz önünde bulundurulması gereken başka bir şey, karar ağaçlarının değişkenler arasındaki etkileşimleri otomatik olarak dikkate alabilmesidir, örneğin ve iki bağımsız özelliğiniz varsa . Lojistik regresyon ile bu etkileşim terimlerini kendiniz manuel olarak eklemeniz gerekir.x yxyxy
Bu yüzden kendinize şunu sormalısınız:
- ne tür bir karar sınırı sizin probleminizde daha anlamlı?
- önyargı ve varyansı nasıl dengelemek istersiniz?
- özelliklerim arasında etkileşimler var mı?
Tabii ki, her iki modeli de denemek ve çapraz doğrulama yapmak her zaman iyi bir fikirdir. Bu, hangisinin daha iyi genelleme hatasına sahip olma olasılığının daha yüksek olduğunu bulmanıza yardımcı olacaktır.