Kaynak yoğun bilgi işlem için R'yi çok çekirdekli, SNOW veya CUDA paketiyle kim kullanıyor?


16

Bu forumda kimleriniz "> çok çekirdekli , kar paketleri veya CUDA ile R kullanıyor , bu yüzden bir iş istasyonu CPU'sundan daha fazla güce ihtiyaç duyan gelişmiş hesaplamalar için? Bu komut dosyalarını hangi donanımda hesaplıyorsunuz? bir yere veri merkezi erişimi?

Bu soruların arka planı şu şekildedir: Şu anda M.Sc. R ve Yüksek Performanslı Hesaplama üzerine tezler ve R'yi kimin kullandığı konusunda güçlü bir bilgiye ihtiyaç duyuyorum. 2008'de R'nin 1 milyon kullanıcısı olduğunu okudum, ancak bu konu hakkında bulabildiğim tek kullanıcı istatistikleri bu - umarım sizin için Yanıtlar!

Saygılarımızla Heinrich


Olası ilgili bir soru, stats.stackexchange.com/questions/825/… .
chl

Yanıtlar:


6

Yıllar arası iklim değişikliğinin çeşitli göçmen türlerin nüfus dinamikleri üzerindeki etkilerini modelleyen bir biyologum. Veri setlerim çok büyük (mekansal olarak yoğun veriler), bu yüzden R kodumu kullanarakmulticore Amazon EC2 sunucularında . Görevim özellikle kaynak yoğun ise, 26 CPU birimi, 8 çekirdek ve 68G RAM ile birlikte gelen Yüksek Bellek Dörtlü Ekstra Büyük bir örnek seçeceğim. Bu durumda, genellikle her biri oldukça büyük bir veri kümesi üzerinden çalışan 4-6 betik çalıştırırım. Daha küçük görevler için 4-6 çekirdekli ve yaklaşık 20 gig RAM'e sahip sunucuları seçiyorum.

Bu örnekleri başlatırım (genellikle daha ucuz oldukları için spot örnekler, ancak geçerli oran ödemeyi seçtiğim zamanı aştığında sona erdirebilir), komut dosyasını birkaç saat çalıştırıp komut dosyam bittikten sonra örneği sonlandırırım. Makine görüntüsüne gelince (Amazon Machine Image), başkalarının Ubuntu yüklemesini aldım, R'yi güncelledim, paketlerimi kurdum ve S3 depolama alanımdaki özel AMI'm olarak kaydettim.

Benim kişisel makine bir çift çekirdekli macbook pro ve çok çekirdekli çağrıları çatal zor bir zaman var. Başka sorularınız varsa e-posta göndermekten çekinmeyin.


Lütfen veri kümenizin boyutunun ne olduğunu söyleyebilir misiniz?
suncoolsu

Elbette. Şu anda birlikte çalıştığım veri setleri ~ 14 konser
Maiasaura

4

Sizden bu yana , çok çekirdekli arka ucuyla foreach paketini kullanıyorum . Çok fazla RAM içeren tek bir Nehalem kutusundaki utanç verici bir şekilde paralel iş yükünü birden fazla çekirdek arasında bölmek için kullanıyorum. Bu, eldeki görev için oldukça iyi çalışıyor.


Cevabınız için teşekkürler! İş / akademik araştırmanız veya kendi projeleriniz için kendi PC'niz için hesaplama yapıyor musunuz?
Heinrich

Bu ticari bir ortamda yapılır. Bu görev için, 32GB RAM ve RAID diskleri olan tek bir Intel kutusu kullanıyorum (işlemin kendisi çok fazla hesaplama gerektirmiyorken ana zorluk çok fazla veri.)
NPE

Tamam @aix, bu hesaplamaları ne sıklıkta yapıyorsunuz? Gün boyu çalışan kutunuz mu yoksa daha fazla boşta mı çalışıyorsunuz?
Heinrich

@NPE'ye hızlı soru: Verileri hangi sistemde saklıyorsunuz? veritabanı arka ucu kullanıyor musunuz?
nassimhddd

3

Akademide çalışıyorum ve çoğunlukla Opteron tabanlı Sun Constellation ve bazı daha küçük kümeler üzerinde makine öğrenimi algoritmalarının bazı ağır ölçütleri için çok çekirdekli kullanıyorum; bunlar da oldukça utanç verici bir şekilde paralel problemlerdir, bu nedenle çok çekirdeğin ana rolü, hesaplamayı bellek kullanımı çarpımı olmadan düğüm üzerine yaymaktır.


Hamburg'da burada her zaman akademik veri merkezlerinin bekleme süresinin gerçekten uzun olması sorunu var. senin için aynı mı?
Heinrich

@Heinrich Bir tür akademik veri merkezi için çalışıyorum, bu yüzden böyle problemlerim yok (-; Ciddi olarak, Varşova'da bilimsel CPU zaman kaynağı talepten daha büyük, bu yüzden hibe almanın oldukça kolay olduğuna inanıyorum. Sanırım D-Grid veya

Ah. Bu ilginç. Dow, bu genişlemelerde R'nin ne tür işletmelerde kullanıldığını biliyor musunuz?
Heinrich

2

HPC kümelerinde rota paralelleştirme için kar ve kar yağışı, ince veri paralel işleme için CUDA kullanıyorum. Epidemiyolojide hastalık bulaşma modellemesi yapıyorum. Bu yüzden ikisini de kullanıyorum.


Bilgi için teşekkürler. Ders paralelleştirmesi ile ne demek istiyorsun?
Heinrich

Rota paralelleştirmesi, bir MCMC değişikliğinin bağımsız çalışması gibi bir şey olabilir, yani, dişleri senkronize etmeden paralel olarak çalıştırılabilen çok büyük aynalar. İnce tanelerin bir örneği, hesaplamaların veri noktalarında bağımsız olarak gerçekleştirilme olasılığını hesaplamaktır.
Andrew Redd
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.