Alternatifler ile lojistik regresyon arasındaki pratik ve yorum farklılıkları nelerdir?


9

R'de lojistik regresyona alternatifler hakkında yeni bir soru , randomForest, gbm, rpart, bayesglm ve genelleştirilmiş katkı modelleri de dahil olmak üzere çeşitli cevaplar verdi. Bu yöntemler ile lojistik regresyon arasındaki pratik ve yorum farklılıkları nelerdir? Lojistik regresyona göre ne gibi varsayımlar yapıyorlar (ya da yapmıyorlar)? Hipotez testi için uygun mu? Vb.

Yanıtlar:


9

Feragatname: Bu soruya tam bir cevap olmaktan kesinlikle uzaktır!

Tüm bu yöntemler arasında bir ayrım yapmadan önce dikkate alınması gereken en az iki seviye olduğunu düşünüyorum:

  • ister tek bir model takılmıştır : ya RF veya vs Bu lojistik regresyon gibi karşıt yöntemler yardımcı Degrade Arttırılması (veya daha genel olarak Ensemble yöntemler ) ve aynı zamanda karşı sınıflandırma ya da (ilgili ASİMPTOTİK veya bootstrap güven aralıkları ile) parametreleri tahmin vurgu tahmin doğruluğu hesaplama;
  • ister tüm değişkenler dikkate alınır : ya cezalandırma veya düzenlileştirme "düzensiz" veri kümelerinin (örneğin büyük baş izin vermesidir Bu anlamda, özellik seçimi temelidir ve / veya küçük ) ve bulguların genellenebilirliğini geliştirmek.pn

Soruyla alakalı olduğunu düşündüğüm birkaç nokta daha var.

Birkaç model düşünürsek - aynı model mevcut verilerin farklı alt kümelerine (bireyler ve / veya değişkenler) takılırsa veya aynı veri kümesine farklı rekabetçi modeller takılırsa, önlemek için çapraz doğrulama kullanılabilir CV bu özel durumlarla sınırlı olmamakla birlikte ( örneğin GAM'larla veya cezalandırılmış GLM'lerle kullanılabilir ). Ayrıca, geleneksel yorumlama sorunu vardır: daha karmaşık modeller genellikle daha karmaşık yorumlama gerektirir (daha fazla parametre, daha katı varsayımlar, vb.).

Gradyan artırılması ve RFS tek Karar ağacının sınırlamaları aşmak, sayesinde Arttırılması asıl fikri daha doğru ve istikrarlı karar kuralı oluşturmak için birkaç zayıf öğrenme algoritmalarının çıkışını birleştirmektir ve Torbalama nerede "ortalama" sonuçları üzerinde yeniden örneklenmiş veri kümeleri. Genel olarak, model için net spesifikasyonların sağlandığı daha "klasik" modellere kıyasla genellikle bir tür kara kutu olarak görülürler (üç model sınıfını düşünebilirim: parametrik , yarı parametrik , parametrik olmayan ), ancak Bu iki konu başlığı altında yapılan tartışmayı düşünüyorum : İki Kültür: istatistik vs makine öğrenimi? ilginç bakış açıları sağlar.

İşte özellik seçimi ve bazı ML teknikleri hakkında birkaç makale:

  1. Saeys, Y, Inza, I ve Larrañaga, P. Biyoinformatik , Biyoinformatik (2007) 23 (19): 2507-2517'de özellik seçme tekniklerinin gözden geçirilmesi.
  2. Dougherty, ER, Hua J ve Sima, C. Özellik Seçim Yöntemlerinin Performansı , Current Genomics (2009) 10 (6): 365-374.
  3. Boulesteix, AL ve Strobl, C. Hata oranı tahmininde optimal sınıflandırıcı seçimi ve negatif yanlılık: yüksek boyutlu tahmin üzerine ampirik bir çalışma , BMC Medical Research Methodology (2009) 9:85.
  4. Caruana, R ve Niculescu-Mizil, A. Denetimli Öğrenme Algoritmalarının Ampirik Karşılaştırması . 23. Uluslararası Makine Öğrenimi Konferansı Bildirileri (2006).
  5. Friedman, J, Hastie, T ve Tibshirani, R. İlave lojistik regresyon: Arttırmaya istatistiksel bir bakış , Ann. Devletçi. (2000) 28 (2): 337-407'de tarif edilmektedir. (Tartışma ile)
  6. Olden, JD, Lawler, JJ ve Poff, NL. Gözyaşı olmadan makine öğrenme yöntemleri: ekologlar için bir astar , Q Rev Biol. (2008) 83 (2): 171-93'te açıklanmaktadır.

Ve elbette, Hastie ve coll. Tarafından İstatistiksel Öğrenmenin Unsurları , illüstrasyonlar ve referanslarla doludur. Ayrıca Andrew Moore'dan İstatistiksel Veri Madenciliği Derslerini kontrol ettiğinizden emin olun .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.