R'nin bellek kısıtlamaları nelerdir?


10

Uygulamalı Öngörülü Modellemederlemesinde gözden geçiren şöyle diyor :

İstatistiksel öğrenme (SL) pedagojisine sahip olduğum bir eleştiri, farklı modelleme tekniklerinin değerlendirilmesinde hesaplama performansının dikkate alınmamasıdır. Modellerin ayarlanması / test edilmesi için önyükleme ve çapraz validasyon konusundaki vurguları ile SL, oldukça bilgi işlem yoğun. Buna, torbalama ve artırma gibi tekniklere gömülü yeniden örnekleme ekleyin ve büyük veri kümelerinin denetimli öğrenimi için hesaplama cehennemine sahip olursunuz. Aslında, R'nin bellek kısıtlamaları, rastgele ormanlar gibi en iyi performans gösteren yöntemlere uyabilecek modellerin boyutuna oldukça ciddi sınırlar getiriyor. SL, küçük veri setlerine karşı model performansını kalibre etmek için iyi bir iş yapsa da, daha büyük veriler için hesaplama maliyetine karşı performansı anlamak iyi olurdu.

R'nin bellek kısıtlamaları nelerdir ve rastgele ormanlar gibi en iyi performans gösteren yöntemlere uyabilecek modellerin boyutuna ciddi sınırlar getiriyorlar mı?


Yanıtlar:


10

Konstantin'in işaret ettiği gibi, R tüm hesaplamasını sistemin hafızasında, yani RAM'de gerçekleştirir. Bu nedenle, RAM kapasitesi R'deki hesaplama yoğun işlemleri için çok önemli bir kısıtlamadır. işlemleri yapar, böylece bellek kısıtlamalarının üstesinden gelir. RHadoop ( https://github.com/RevolutionAnalytics/RHadoop/wiki ) aradığınız bağlayıcıdır.

Hesaplama yoğun algoritmalar üzerindeki etkisine gelince, Rastgele Ormanlar / Karar Ağaçları / Topluluk yöntemleri önemli miktarda veri (deneyimlerime göre en az 50.000 gözlem) üzerinde çok fazla bellek kaplıyor ve oldukça yavaş. Süreci hızlandırmak için paralelleme gitmek için bir yoldur ve paralelleştirme Hadoop'ta doğal olarak mevcuttur! İşte bu noktada, Hadoop gerçekten verimli.

Bu nedenle, hesaplama yoğun ve yavaş olan topluluk yöntemlerine gidecekseniz, önemli bir performans iyileştirmesi sağlayan HDFS sistemini denemek istersiniz.


1
+1 Mevcut cevabı geliştirmek için zaman ayırdığınız için teşekkür ederim ve bence cevabınız şimdi daha iyi cevap, cevabınızı cevap olarak seçtim. Şerefe!
hatalar karşısında

Cevaplamaktan memnunum!
binga

8

R, tüm hesaplama belleğinde gerçekleştirir, böylece kullanılabilir RAM miktarından daha büyük bir veri kümesinde işlem yapamazsınız. Bununla birlikte, R kullanarak bigdata işlemeye izin veren bazı kütüphaneler ve Hadoop gibi bigdata işlemesi için popüler kütüphanelerden biri vardır.


3

Bu eleştiri artık haklı değildir:

Standart ve en saygın R kitaplıklarının çoğunun bellek içi hesaplamalarla sınırlı olduğu doğru olsa da, belleğe sığmayan verilerle ilgilenmek için artan sayıda özel kitaplık vardır.
Örneğin, büyük veri kümelerindeki rastgele ormanlar için kitaplığa sahipsiniz bigrf. Daha fazla bilgi burada: http://cran.r-project.org/web/packages/bigrf/

Büyümenin bir başka alanı da R'nin başka bir olasılıklar dünyası açan hadoop gibi büyük veri ortamlarına bağlı olmasıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.