Büyük veri kümeleriyle başa çıkmak için istatistik ve veri madenciliği yazılım araçları


27

Şu anda yaklaşık 20M kayıtları analiz etmeli ve tahmin modelleri oluşturmalıyım. Şimdiye kadar Statistica, SPSS, RapidMiner ve R'yi denedim. Bu Statistica arasında veri madenciliği ile uğraşmak en uygun gibi görünüyor ve RapidMiner kullanıcı arayüzü de çok kullanışlı, ancak Statistica, RapidMiner ve SPSS'in sadece daha küçük veri setleri için uygun olduğu görülüyor .

Herkes büyük veri kümeleri için iyi bir araç önerebilir mi?

Teşekkürler!


6
Pls biraz daha spesifik olabilir misiniz? Aslında benimkilere ne veri vermek istiyorsun ve nasıl yapmayı düşünüyorsun? Seninkine benzer boyutta kayıtları analiz etmek için R kullandım ve hiç de fena bir deneyim değildi.
suncoolsu

Bu soru hızlı bir şekilde çıkacak. Bu tür araçlarda en son yarı yarıya bir toplamaya (wiki) sahip olmak iyi olabilir.
Iterator,

Yanıtlar:


19

Ben ikincisi @suncoolsu yorumu: Veri setinizin boyutsallığı sizi belirli bir yazılıma yöneltmesi gereken tek kriter değil. Örneğin, denetimsiz kümeleme yapmayı veya PCA'yı kullanmayı planlıyorsanız, genomik çalışmalarda sıkça karşılaşıldığı gibi büyük veri kümeleriyle başa çıkabilen birkaç özel araç vardır.

Şimdi, R (64 bit) büyük verileri oldukça iyi kullanıyor ve hala RAM erişimi yerine disk depolama özelliğini kullanma seçeneğiniz var, ancak R ile CRAN Task View Yüksek Performanslı ve Paralel Hesaplama bölümüne bakın . Standart GLM, 20.000 obs'i kolayca karşılayacaktır. (fakat ayrıca bkz. speedglm ) aşağıda gösterildiği gibi makul bir süre içinde:

> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
   user  system  elapsed
  0.361   0.018    0.379

Daha somut bir örnek vermek gerekirse, R'yi büyük genetik verileri (800 birey x 800k SNP , işlemek ve analiz etmek için kullandım ; burada ana istatistiksel model, birkaç değişkenli tabakalı bir GLM idi (2 dakika); bu, verimli R ve mevcut C kodları snpMatrix (paketine kıyasla, modelin aynı tür özel C ++ yazılım (kullanarak 8 dakika sürdü plink Ben de (12k hasta ilgilenilen 50 değişkenleri x) bir klinik çalışmada üzerinde çalıştı.) ve R benim ihtiyaçlarına uygun Son olarak, bildiğim kadarıyla, lme4 paketi, karışık etki modeline dengesiz ve büyük veri setleriyle (büyük ölçekli eğitim değerlendirmesinde olduğu gibi) uyuma izin veren tek yazılımdır.

Stata / SE, büyük veri setlerini işleyebilen başka bir yazılımdır . SAS ve SPSS dosya tabanlı bir yazılımdır, bu nedenle büyük miktarda veriyi işleyecektir. Veri madenciliği için yazılımın karşılaştırmalı bir incelemesi Veri Madenciliği Araçları: Hangisi CRM için En İyisidir . Görselleştirme için ayrıca birçok seçenek var; belki iyi bir başlangıç büyük veri kümelerinin Grafik: Bir milyon görselleştirme ( gözden P Murrell jss içinde) ve bu sitede tüm ilgili konu.


@chl: 64-bit R için etkili bir paralel hesaplama çözümü buldunuz mu? En son baktığımda (bu yaz sonunda) sadece ticari olmayanlar sadece 32-bit R'de
işe yaradı

1
@whuber Nope. Büyük genetik veri setlerini yönetmek için geçen yıl 64 bit'e geçmek zorunda kaldım, ancak kullandığımız istatistiksel modeller paralelizasyon gerektirmez (bildiğim kadarıyla). R için bir OpenMP bağlaması olduğunu düşünmüştüm, ancak bunu daha fazla araştırmadım. Revolution Analytics’in bu anlamda çaba harcadığını biliyorum ( j.mp/d7dFb5 ), ancak yine de 32 bit (bu muhtemelen bahsettiğiniz şey). Bu arada R / paralel ( rparallel.org ) buldum ama ne kadar güvenilir / olgun olduğunu bilmiyorum.
chl

@chl Hepsini denedim ama hiçbiri işe yaramadı.
whuber

@Whuber: Pencerelerde misin, yoksa * nix kutusunda mı (mac, linux, ...)
user603 16.09 te

2
Size ubuntu (google 'download ubuntu') uygulamasını kurmanızı ve sadece Windows uygulamalarınızı ubuntu içinden sanal kutu ( youtube.com/watch?v=KXgKnd-u2R4 ) üzerinden çalıştırmanızı öneririm . R ve lateks editörleri ubuntu üzerinde bir cazibe gibi çalışır.
user603

8

Apache Mahout'teki algoritmaların çoğu, yüksek boyutlu verilerle bile 20M kayıtların ötesine geçmektedir. Yalnızca bir tahmin modeli oluşturmanız gerekiyorsa, Vowpal Wabbit (http://hunch.net/~vw/) gibi tek bir makinede milyarlarca kayda kolayca ölçeklenebilen belirli araçlar vardır.


Harika ... Bunun farkında değildim!
chl

7

Orada RHIPE paketi (R-Hadoop'un entegrasyon). Büyük miktarda veriyi R'de analiz etmeyi (istisnalar dışında) çok kolaylaştırabilir.


Bununla başarınız var mı? Varsa ne tür bir başvuru için?
chl

Evet, RHIPE harika. Arkadaşlarımdan bazıları internet trafiği verilerini analiz etmek için kullanıyor. Amaçlarından biri, zorla girme denemelerini modellemektir. Veriler bu gibi durumlarda çok büyük, petabaytlar yaygındır!
suncoolsu

4

Ne tür modellere sahip olduğunuzu bilmeden, iyi bir cevap vermek zor.

Doğrusal regresyon için, biglm paketini R'de başarıyla kullandım.


4

Büyük veri kümelerinden tahminde bulunan modeller oluşturduğunuzdan, Google’ın BigQuery’inden ( Google’ın Dremel’le birlikte yapılan büyük veri kümesi analizi konusundaki araştırma belgesinin barındırılan bir sürümü) yararlanabilirsiniz. Örneğin sorgu sonuçlarını alım için CSV olarak dışlayıcı bir sınıflandırıcıya aktarabilirsiniz.

BigQuery, sorgu çalıştırmanıza ve sonuçları dışa aktarmanıza izin veren bir WebUI'ye sahiptir. BigQuery'nin beta (v1) sürümü bir R istemcisine sahipti ve üretim sürümü (v2) de bir R müşterisine sahip olacak.


3

32GB ram ve 4 çekirdekli bir EC2 örneğinde 64-bit R kullanarak 3.5M gözlemlerini ve 44 özelliğini eğittik. Rastgele ormanlar kullandık ve iyi çalıştı. Eğitimden önce verileri önceden işlemek / değiştirmek zorunda olduğumuzu unutmayın.


3

SAS Enterprise Miner sürüm 6.2, 20 milyon gözlemin ve sizin durumunuza uyarlanabilecek çeşitli modellerin ele alınmasında sorun çıkarmaz. Ancak SAS ile ilgili sorun genellikle maliyettir. SAS EM'in neler yapabileceğinin bir özeti: SAS EM 6.2: Yenilikler



0

RHIPE harika bir çözüm ve bu sorunu yaşıyorsanız muhtemelen bunu seçerdim! fakat NCSS'yi düşündünüz mü? Bildiğim kadarıyla, en yeni sürüm 10 bu modelleri inşa edebilir. Tam ver. çok pahalı, ancak bazı uzak masaüstü servislerinde sadece küçük bir ücret karşılığında uygulamayı çalıştırabilirsiniz ama bilmiyorum .. yerine kontrol

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.