Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir.
set.seed(123)
# matrix of X variable
xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000)
colnames(xmat) <- paste ("M", 1:10000, sep ="")
rownames(xmat) <- paste("sample", 1:200, sep = "")
#M variables are correlated
N <- 2000000*0.05 # 5% random missing values
inds <- round ( runif(N, 1, length(xmat)) )
xmat[inds] <- NA
> xmat[1:10,1:10]
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
sample1 -1 -1 1 NA 0 -1 1 -1 0 -1
sample2 1 1 -1 1 0 0 1 -1 -1 1
sample3 0 0 1 -1 -1 -1 0 -1 -1 -1
sample4 1 0 0 -1 -1 1 1 0 1 1
sample5 NA 0 0 -1 -1 1 0 NA 1 NA
sample6 -1 1 0 1 1 0 1 1 -1 -1
sample7 NA 0 1 -1 0 1 -1 0 1 NA
sample8 1 -1 -1 1 0 -1 -1 1 -1 0
sample9 0 -1 0 -1 1 -1 1 NA 0 1
sample10 0 -1 1 0 1 0 0 1 NA 0
Bu durumda eksik değerleri etkilemenin (en iyi) bir yolu var mı? Random Forest algoritması yardımcı oldu mu? R'deki herhangi bir çalışma çözümü çok takdir edilecektir.
Düzenlemeler:
(1) Eksik değerler, değişkenler ve örnekler arasında rastgele dağıtılır . Değişken sayısı çok fazla olduğu için (burada örnekte - 10000), yukarıdaki örnek örnekte örnek sayısı burada azken yaklaşık 200'dür. tüm değişkenler (10000) üzerinden herhangi bir örneğe baktığımızda, çok sayıda değişken nedeniyle bazı değişkenlerde eksik değer bulunma olasılığı yüksektir. Bu yüzden sadece örneği silmek bir seçenek değildir.
(2) Değişken, çarpma işleminde hem nicel hem de nitel (ikili) olarak ele alınabilir. Tek karar, bunu ne kadar iyi tahmin edebileceğimizdir (doğruluk). Bu nedenle, 1 yerine 0,98 gibi tahminler, 0'a 1 ya da -1'e 1 gibi kabul edilebilir.
(3) Değişken sayısının örnek sayısına kıyasla fazla olması nedeniyle aşırı sığmanın sonuçları nasıl etkileyebileceğini düşünüyorum.
(4) Eksik değerlerin toplam miktarı yaklaşık% 5 olduğundan ve rasgele olduğundan (çok yüksek eksik değerlere sahip değişkenleri veya örnekleri kaldırmak için önlem alındığı için herhangi bir değişken veya numunede konsantre edilmemiştir)
(5) Verilerin analiz için eksiksiz hale getirilmesi ilk amaçtır ve doğruluk ikincildir. Bu yüzden hassasiyete çok duyarlı değil.