Boyuna büyük veriler nasıl modellenir?


14

Geleneksel olarak, uzunlamasına verileri, yani aşağıdaki gibi verileri modellemek için karışık model kullanırız:

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

farklı kişiler için rastgele kesişme veya eğim varsayabiliriz. Ancak çözmeye çalıştığım soru muazzam veri kümelerini içerecektir (milyonlarca kişi, 1 aylık günlük gözlem, yani her bir kişi 30 gözlem yapacak), şu anda paketlerin bu düzeyde veri yapıp yapamayacağını bilmiyorum.

Kıvılcım / fileye erişimim var, ancak karışık modeller sunmuyorlar, sorum şu, bu veri kümesini modellemek için RandomForest veya SVM'yi kullanabilmem için verilerimi değiştirebileceğim yine de var mı?

RF / SVM'nin otomatik korelasyonu açıklamasına yardımcı olması için üzerinde kullanabileceğim herhangi bir özellik mühendisliği tekniği?

Çok teşekkürler!

Bazı potansiyel yöntemler var ama bunları kıvılcım içine yazmak için zaman ayıramadım

Rasgele efektleri randomForest'a nasıl ekleyebilirim

Boyuna verilerle SVM regresyonu


1
veri kümesi o kadar büyük değil. 30 kayıt içeren 1 milyon kişi, belki de kayıt başına 20 bayt veri 600 MB getirecektir. önemli değil. herhangi bir stat paketi bunu halledecek
Aksakal

Yanıtlar:


4

Örnekte olduğu gibi yalnızca birkaç değişkeniniz varsa, bazı değişkenleriyle ilgili sorun yaşamamalısınız lme4.

Makine öğrenimi tekniklerinin gerçekten parlak olduğu yerler, çok sayıda değişkeniniz olduğu ve değişkenleriniz arasındaki doğrusal olmayanları ve etkileşimleri modellemek istediğiniz zamandır. Bunu uzunlamasına verilerle yapabilen az sayıda ML yaklaşımı geliştirilmiştir. RNN'ler bir seçenektir, ancak bunlar panel verileri yerine genellikle zaman serisi sorunları için optimize edilmiştir.

Prensip olarak, ileri beslemeli bir sinir ağı, girdi verilerinin doğrusal olmayan fonksiyonları olan regresörlerle (genelleştirilmiş) doğrusal bir modeldir. Türetilmiş regresörler - çıktının önündeki modelin üst katmanı - parametrik olmayan kısım olarak kabul edilirse, belki de rastgele etkiler şeklinde parametrik yapı eklemenizi engelleyen hiçbir şey yoktur.

Ancak bu, sınıflandırma sorunları için uygulanmadı, ki bunu SVM ile aday olarak ilgilendiğiniz için yapıyorsunuz.



2

Boyuna verileriniz için Rastgele Ormanlara, NN'lere vb. İhtiyacınız var mı? lme4milyonlarca kişiyle başa çıkabilir:

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

Doğrusal karışık modellerle kolayca başa çıkabilir ve bağlantıdan da görebileceğiniz gibi, doğrusal olmayan karışık modelleri de destekliyor (ancak doğrusal olmayan modeller için de yıldırım hızlı olmasını beklemiyordum).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.