Karar ağacı mı yoksa lojistik regresyon mu?


14

Bir sınıflandırma problemi üzerinde çalışıyorum. Eşit sayıda kategorik değişken ve sürekli değişken içeren bir veri setim var. Hangi tekniği kullanacağımı nasıl bileceğim? karar ağacı ile lojistik regresyon arasındaki ilişki nedir?

Lojistik regresyonun sürekli değişken için daha uygun olacağını ve karar ağacının sürekli + kategorik değişken için daha uygun olacağını varsaymak doğru mudur?


Satır sayısı, sütun sayısı (ayrıca kaç tane kategorik / sürekli) gibi daha fazla ayrıntı ekleyebilir misiniz?
Nitesh

Merhaba @Nitesh, 32 giriş değişkenleri + 1 hedef değişkenim var. Kayıtlar, eğitim verileri için 2,5 lakh'ye yakın ve yaklaşık 1 lakh test verisi söylüyor. Test verileri zaman dışı.
Arun

Yanıtlar:


23

Uzun lafın kısası : @untitledprogrammer'ın söylediklerini yapın, her iki modeli de deneyin ve birini seçmek için çapraz doğrulayın.

Hem karar ağaçları (uygulamaya bağlı olarak, örneğin C4.5) hem de lojistik regresyon, sürekli ve kategorik verileri gayet iyi idare edebilmelidir. Lojistik regresyon için, kategorik değişkenlerinizi kukla kodlamak isteyeceksiniz .

@Untitledprogrammer'ın belirttiği gibi, hangi tekniğin sadece sahip olduğunuz özellik türlerine göre sürekli veya başka şekilde daha iyi olacağını bir priori bilmek zor. Bu gerçekten sizin probleminize ve sahip olduğunuz verilere bağlıdır. (Bkz. Ücretsiz Öğle Yemeği Teoremi )

Bununla birlikte, bir lojistik regresyon modelinin özellik alanınızda tek bir doğrusal karar sınırı aradığını, buna karşılık bir karar ağacı esasen özellik alanınızı eksene hizalanmış doğrusal karar sınırlarını kullanarak yarı boşluklara böldüğünü unutmayın. Net etki, doğrusal olmayan bir karar sınırına sahip olmanızdır, muhtemelen birden fazla.

Bu, veri noktalarınız tek bir köprü ile kolayca ayrılmadığında güzeldir, ancak diğer taraftan, karar ağaçları o kadar esnektir ki aşırı sığmaya eğilimlidirler. Bununla mücadele etmek için budamayı deneyebilirsiniz. Lojistik regresyon, aşırı donmaya karşı daha az duyarlı (ancak bağışık değil!) Olma eğilimindedir.

Son olarak, göz önünde bulundurulması gereken başka bir şey, karar ağaçlarının değişkenler arasındaki etkileşimleri otomatik olarak dikkate alabilmesidir, örneğin ve iki bağımsız özelliğiniz varsa . Lojistik regresyon ile bu etkileşim terimlerini kendiniz manuel olarak eklemeniz gerekir.x yxyxy

Bu yüzden kendinize şunu sormalısınız:

  • ne tür bir karar sınırı sizin probleminizde daha anlamlı?
  • önyargı ve varyansı nasıl dengelemek istersiniz?
  • özelliklerim arasında etkileşimler var mı?

Tabii ki, her iki modeli de denemek ve çapraz doğrulama yapmak her zaman iyi bir fikirdir. Bu, hangisinin daha iyi genelleme hatasına sahip olma olasılığının daha yüksek olduğunu bulmanıza yardımcı olacaktır.


Kesinlikle @Victor.
untitledprogrammer

@Victor Çok ayrıntılı bir açıklama için çok teşekkürler.
Arun

6

Hem regresyon hem de karar ağaçlarını kullanmayı deneyin. 10 kat çapraz doğrulama kullanarak her tekniğin verimliliğini karşılaştırın. Daha yüksek verimlilikle ona sadık kalın. Veri kümenizin sürekli ve kategorik olduğunu bilerek hangi yöntemin daha uygun olacağını değerlendirmek zor olacaktır.


1

Bu gerçekten verilerinizin altında yatan dağıtımın yapısına bağlıdır. Verilerin bir Bernoulli dağılımına yaklaştığına inanmak için güçlü bir nedeniniz varsa, çok terimli lojistik regresyon iyi performans gösterecek ve size yorumlanabilir sonuçlar verecektir. Bununla birlikte, temel dağılımda doğrusal olmayan yapılar varsa, ciddi bir şekilde parametrik olmayan bir yöntem düşünmelisiniz.

Bir karar ağacını parametrik olmayan yönteminiz olarak kullanabilirsiniz, ancak rastgele bir orman oluşturmayı da düşünebilirsiniz - bu aslında verilerin alt kümelerinden çok sayıda bireysel karar ağacı oluşturur ve son sınıflandırma tüm ağaçların toplanmış oyudur. . Rastgele bir orman, her bir tahmin değişkeninin yanıta katkıda bulunduğu pay hakkında bir fikir vermenize yardımcı olur.

Akılda tutulması gereken diğer bir faktör de yorumlanabilirliktir. Sadece verileri sınıflandırmaya çalışıyorsanız, muhtemelen açıklayıcı ve yanıt değişkenleri arasındaki temel ilişkilerin umurunda değilsiniz. Bununla birlikte, yorumlanabilirlikle ilgileniyorsanız, çok terimli bir lojistik regresyonun yorumlanması çok daha kolaydır, genel olarak parametrik yöntemler, çünkü temel dağılım hakkında varsayımlar yaparlar, size daha sezgisel olarak yorumlanabilir ilişkiler söyleyin.


0

Karar Ağacı'nı kullanmak için sürekli değişkeni kategorik biçime dönüştürmelisiniz.

Bir şey daha, Lojistik Regresyon genellikle sonucu olasılığa göre tahmin etmek için kullanılır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.