Ben ikincisi @suncoolsu yorumu: Veri setinizin boyutsallığı sizi belirli bir yazılıma yöneltmesi gereken tek kriter değil. Örneğin, denetimsiz kümeleme yapmayı veya PCA'yı kullanmayı planlıyorsanız, genomik çalışmalarda sıkça karşılaşıldığı gibi büyük veri kümeleriyle başa çıkabilen birkaç özel araç vardır.
Şimdi, R (64 bit) büyük verileri oldukça iyi kullanıyor ve hala RAM erişimi yerine disk depolama özelliğini kullanma seçeneğiniz var, ancak R ile CRAN Task View Yüksek Performanslı ve Paralel Hesaplama bölümüne bakın . Standart GLM, 20.000 obs'i kolayca karşılayacaktır. (fakat ayrıca bkz. speedglm ) aşağıda gösterildiği gibi makul bir süre içinde:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Daha somut bir örnek vermek gerekirse, R'yi büyük genetik verileri (800 birey x 800k SNP , işlemek ve analiz etmek için kullandım ; burada ana istatistiksel model, birkaç değişkenli tabakalı bir GLM idi (2 dakika); bu, verimli R ve mevcut C kodları snpMatrix (paketine kıyasla, modelin aynı tür özel C ++ yazılım (kullanarak 8 dakika sürdü plink Ben de (12k hasta ilgilenilen 50 değişkenleri x) bir klinik çalışmada üzerinde çalıştı.) ve R benim ihtiyaçlarına uygun Son olarak, bildiğim kadarıyla, lme4 paketi, karışık etki modeline dengesiz ve büyük veri setleriyle (büyük ölçekli eğitim değerlendirmesinde olduğu gibi) uyuma izin veren tek yazılımdır.
Stata / SE, büyük veri setlerini işleyebilen başka bir yazılımdır . SAS ve SPSS dosya tabanlı bir yazılımdır, bu nedenle büyük miktarda veriyi işleyecektir. Veri madenciliği için yazılımın karşılaştırmalı bir incelemesi Veri Madenciliği Araçları: Hangisi CRM için En İyisidir . Görselleştirme için ayrıca birçok seçenek var; belki iyi bir başlangıç büyük veri kümelerinin Grafik: Bir milyon görselleştirme ( gözden P Murrell jss içinde) ve bu sitede tüm ilgili konu.