Geleneksel olarak, uzunlamasına verileri, yani aşağıdaki gibi verileri modellemek için karışık model kullanırız:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
farklı kişiler için rastgele kesişme veya eğim varsayabiliriz. Ancak çözmeye çalıştığım soru muazzam veri kümelerini içerecektir (milyonlarca kişi, 1 aylık günlük gözlem, yani her bir kişi 30 gözlem yapacak), şu anda paketlerin bu düzeyde veri yapıp yapamayacağını bilmiyorum.
Kıvılcım / fileye erişimim var, ancak karışık modeller sunmuyorlar, sorum şu, bu veri kümesini modellemek için RandomForest veya SVM'yi kullanabilmem için verilerimi değiştirebileceğim yine de var mı?
RF / SVM'nin otomatik korelasyonu açıklamasına yardımcı olması için üzerinde kullanabileceğim herhangi bir özellik mühendisliği tekniği?
Çok teşekkürler!
Bazı potansiyel yöntemler var ama bunları kıvılcım içine yazmak için zaman ayıramadım