Her gözlemin birkaç bin seyrek ve muhtemelen gereksiz sayısal ve kategorik değişkenlere sahip olduğu, günde milyarlarca gözlem ayarında büyük bir veriyi analiz ettiğinizi varsayalım. Diyelim ki bir regresyon problemi, bir dengesiz ikili sınıflandırma problemi ve bir de “hangi tahmin edicilerin en önemli olduğunu bulma” görevi var. Soruna nasıl yaklaşılacağı konusundaki düşüncem:
Bazı tahmin modelini, verilerin aşağıdakilere kadar aşamalı olarak daha büyük ve daha büyük (rastgele) alt örneklerine yerleştirin:
Modelin takılması ve çapraz doğrulanması işlemsel olarak zorlaşır (örn. Dizüstü bilgisayarımda makul olmayan derecede yavaş, R belleği yetersiz çalışıyor), VEYA
Eğitim ve test RMSE veya hassasiyet / hatırlama değerleri sabitlenir.
Eğitim ve test hataları stabilize edilmediyse (1.), daha basit bir model kullanın ve / veya modelin çok çekirdekli veya çok modlu sürümlerini uygulayın ve baştan yeniden başlatın.
Eğitim ve test hataları stabilize edilmişse (2.):
Eğer (yani, üzerinde algoritmaları hala çok büyük olmadığı için çalıştırabilirim ), özellik alanını genişleterek veya daha karmaşık bir model kullanarak ve en baştan yeniden başlatarak performansı iyileştirmeyi deneyin.X s U B s e t
Eğer 'büyük' ise ve daha fazla analiz yapmak pahalıysa, değişken önemini analiz edin ve sonlandırın.
Ben gibi paketleri kullanmayı planlıyorsanız biglm
, speedglm
, multicore
ve ff
R başlangıçta ve daha sonra gerektiği gibi daha karmaşık algoritmalar ve / veya (EC2) Çok Düğüm kullanın.
Bu makul bir yaklaşım gibi görünüyor mu ve öyleyse, özel bir tavsiyeniz veya öneriniz var mı? Olmazsa, bunun yerine bu boyutta bir veri seti için ne denerdiniz?