Kısacası sorum: R MICE'ın çalışma süresini iyileştirmek için yöntemler var mı?
(Oldukça rasgele) eksik veri içeren bir veri kümesi (30 değişken, 1.3 milyon satır) ile çalışıyorum. 30 değişkenin yaklaşık 15'inde gözlemlerin yaklaşık% 8'i NA içerir. Eksik verileri engellemek için, MICE paketinin bir parçası olan MICE işlevini çalıştırıyorum .
Yöntem = "fastpmm" ve m = 1 ile bir alt kümede (100.000 satır) bile oldukça yavaş çalışma süresi yaşıyorum ve yaklaşık 15 dakika çalışır.
Performansta çok fazla kaybetmeden çalışma süresini iyileştirmenin bir yolu var mı? (mouse.impute.mean oldukça hızlıdır, ancak önemli bilgi kaybı ile birlikte gelir!).
Tekrarlanabilir kod:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")