Tahminli modelleme için kendimizi rastgele etkiler ve gözlemlerin bağımsız olmaması (tekrarlanan önlemler) gibi istatistiksel kavramlarla ilgilenmemiz gerekir mi? Örneğin....
Çeşitli özelliklere ve satın alma bayrağına sahip 5 doğrudan posta kampanyasından (bir yıl boyunca meydana gelen) verilerim var. İdeal olarak, kampanya sırasında müşteri özelliklerine göre verilen satın alma için bir model oluşturmak amacıyla tüm bu verileri bir araya getirmek istiyorum. Nedeni, satın alma olayının nadir olması ve mümkün olduğunca fazla bilgi kullanmak istiyorum. Belirli bir müşterinin kampanyaların 1 ila 5'i arasında herhangi bir yerde olma ihtimali vardır - yani kayıtlar arasında bağımsızlık yoktur.
Kullanırken bu önemli mi?
1) Makine öğrenimi yaklaşımı (örneğin ağaç, MLP, SVM)
2) İstatistiksel bir yaklaşım (lojistik regresyon)?
**ADD:**
Tahminli modelleme hakkındaki düşüncem, modelin işe yarayıp yaramadığıdır. Böylece varsayımların önemini hiçbir zaman gerçekten dikkate almadım. Yukarıda anlattığım durum hakkında düşünmek beni meraklandırdı.
A. Gibi makine öğrenme algoritmalarını alın MLP and SVM
. Bunlar, yukarıdaki örneğim gibi ikili bir olayı ve aynı zamanda açıkça ilişkili olan zaman serisi verilerini modellemek için başarıyla kullanılmıştır. Bununla birlikte, birçoğu hataların olduğu varsayılarak, olasılık ve türetilmiş kayıp fonksiyonlarını kullanır. Örneğin, R'deki gradyan ile güçlendirilmiş ağaçlar gbm
, binomdan türetilen sapma kaybı fonksiyonlarını kullanır ( Sayfa 10 ).