Öngörülü Modelleme - Karma modellemeyi önemsemeli miyiz?


19

Tahminli modelleme için kendimizi rastgele etkiler ve gözlemlerin bağımsız olmaması (tekrarlanan önlemler) gibi istatistiksel kavramlarla ilgilenmemiz gerekir mi? Örneğin....

Çeşitli özelliklere ve satın alma bayrağına sahip 5 doğrudan posta kampanyasından (bir yıl boyunca meydana gelen) verilerim var. İdeal olarak, kampanya sırasında müşteri özelliklerine göre verilen satın alma için bir model oluşturmak amacıyla tüm bu verileri bir araya getirmek istiyorum. Nedeni, satın alma olayının nadir olması ve mümkün olduğunca fazla bilgi kullanmak istiyorum. Belirli bir müşterinin kampanyaların 1 ila 5'i arasında herhangi bir yerde olma ihtimali vardır - yani kayıtlar arasında bağımsızlık yoktur.

Kullanırken bu önemli mi?

1) Makine öğrenimi yaklaşımı (örneğin ağaç, MLP, SVM)

2) İstatistiksel bir yaklaşım (lojistik regresyon)?

**ADD:**

Tahminli modelleme hakkındaki düşüncem, modelin işe yarayıp yaramadığıdır. Böylece varsayımların önemini hiçbir zaman gerçekten dikkate almadım. Yukarıda anlattığım durum hakkında düşünmek beni meraklandırdı.

A. Gibi makine öğrenme algoritmalarını alın MLP and SVM. Bunlar, yukarıdaki örneğim gibi ikili bir olayı ve aynı zamanda açıkça ilişkili olan zaman serisi verilerini modellemek için başarıyla kullanılmıştır. Bununla birlikte, birçoğu hataların olduğu varsayılarak, olasılık ve türetilmiş kayıp fonksiyonlarını kullanır. Örneğin, R'deki gradyan ile güçlendirilmiş ağaçlar gbm, binomdan türetilen sapma kaybı fonksiyonlarını kullanır ( Sayfa 10 ).


1
Kayıtlar arasında bağımsızlığı üstlenen istatistiksel yaklaşımlar için önemli olacaktır, çünkü daha sonra tekrarlanan önlemlerle uğraşıyorsunuz.
Michelle

4
Bana öyle geliyor ki, tahmin odaklı makine öğrenimi ile çıkarım odaklı istatistik arasındaki temel farklardan biri tam olarak söylediğiniz şeydir, B_Miner. Makine öğrenimi neyin işe yaradığına daha çok önem verirken, geleneksel istatistikler varsayımlara özellikle dikkat eder. Her iki durumda da, yaklaşımlarınızın varsayımlarının / özelliklerinin farkında olmanız, daha sonra önemli olup olmadıklarına dair bilinçli bir karar vermeniz gerekir. Yaklaşımın varsayımlarını / özelliklerini anlamadıysanız, modelinizin işe yarayıp yaramadığına dair öngörülü modellemede kendinizi kandırıyor olabilirsiniz.
Anne Z.

2
Öngörülü modellemede önerilen eğitim, test ve validasyon setinin (tüm örnekler yeterince büyük) önerilen validasyon yaklaşımını takip ederseniz ve işe yarayan bir şey bulursanız, temel varsayımların karşılanması durumunda hala rahatsızlık duyulur mu? Kesinlikle ML düşüncesiz uygulama önermiyoruz, ben sadece merak ediyordum ...
steffen

2
Bu bağlamda, üçüncü çapraz onaylı dergi kulübünde tartışılan "İstatistiksel Modelleme: İki Kültür" makalesi ilginç olabilir
steffen

Yanıtlar:


14

Bunu kendim merak ediyordum ve işte geçici sonuçlar. Herkes bu bilgi ve bu konuda herhangi bir referans ile bunu tamamlamak / düzeltmek eğer mutlu olurdu.

İstatistiksel anlamlılığı kontrol ederek lojistik regresyon katsayıları hakkındaki hipotezleri test etmek istiyorsanız, korelasyonu gözlemler arasında modellemeniz (veya bağımsızlık için başka bir şekilde düzeltmeniz) gerekir, aksi takdirde standart hatalarınız en azından küme etkileri. Ancak regresyon katsayıları, ilişkili gözlemlerle bile tarafsızdır, bu nedenle böyle bir modeli tahmin için kullanmak iyi olmalıdır.

Öngörülü modellemede, lojistik regresyon veya başka bir yaklaşım kullanıyor olun, modelinizi eğitirken korelasyonu açıkça hesaba katmanıza gerek yoktur. Bununla birlikte, örnekleme dışı hatanın doğrulanması veya hesaplanması için bir dağıtım seti kullanmak istiyorsanız, her bireyin gözlemlerinin eğitim veya doğrulamada yalnızca bir kümede göründüğünden emin olmak istersiniz, ancak ikisinde birden değil. Aksi takdirde, modeliniz zaten bazı bilgileri olan bireyleri tahmin eder ve örnek dışı sınıflandırma yeteneği hakkında gerçek bir okuma almazsınız.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.