Veri Bilimi bigdata

12

Çok sayıda insan büyük veri terimini oldukça ticari bir şekilde kullanıyor, büyük veri kümelerinin hesaplamaya dahil olduğunu göstermenin bir yolu olarak ve bu nedenle potansiyel çözümlerin iyi performans göstermesi gerekiyor. Elbette, büyük veriler ölçeklenebilirlik ve verimlilik gibi her zaman ilişkili terimler taşırlar, ancak sorunu büyük bir veri sorunu olarak tanımlayan …

86 bigdata scalability efficiency performance

9

R dili Büyük Veriler için uygun mu

R, Veri Analizini amaçlayan birçok kütüphaneye sahiptir (örneğin JAGS, BUGS, ARULES vb.) Ve aşağıdaki gibi popüler ders kitaplarında bahsedilmiştir: J.Krusche, Bayesian Veri Analizi yapmak; B.Lantz, "R ile Makine Öğrenmesi". Bir veri kümesinin Büyük Veri olarak kabul edilmesi için 5 TB'lık bir kılavuz gördüm. Sorum şu: R tipik olarak Büyük Veri …

48 bigdata r

9

Büyük miktarlarda (ikili) verilerin sürüm kontrolü ile nasıl baş edilir

Ben Jeofizik doktora öğrencisiyim ve çok fazla resim verisiyle çalışıyorum (yüzlerce GB, on binlerce dosya). Biliyorum svnve gitoldukça iyi ve birlikte kolayca işe yeteneği ile kombine bir proje öyküsü, değer ve disk yolsuzluğa karşı korumaya sahip geliyorlar. gitTutarlı yedeklemeler için de son derece yararlı buluyorum ancak Git'in büyük miktarlarda ikili …

46 bigdata databases binary version-control

11

C (veya C ++) da Veri Bilimi

Ben bir Rdil programcısıyım. Ayrıca Veri Bilim İnsanları olarak kabul edilen ancak CS dışındaki akademik disiplinlerden gelen insanlar grubuyum. Bu, bir Veri Bilimcisi olarak benim rolümde iyi sonuç veriyor, ancak kariyerime başlayarak Rve sadece diğer betik / web dilleri hakkında temel bilgileri öğrenerek, 2 kilit alanda kendimi yetersiz hissediyorum: Programlama …

40 machine-learning bigdata statistics programming c

9

Veri Bilimcisi olmak için Hadoop'u öğrenmem gerekiyor mu?

Burada amaçlayan bir veri bilimcisi. Hadoop hakkında hiçbir şey bilmiyorum ama Veri Bilimi ve Büyük Veri hakkında okuduğum için Hadoop hakkında çok fazla konuşma görüyorum. Hadoop'u Veri Bilimcisi olarak öğrenmek kesinlikle gerekli midir?

38 bigdata apache-hadoop

5

Pandalarla analiz için 20GB'lık bir dosya açmak

Şu anda makine öğrenmesi amacıyla panda ve python içeren bir dosya açmaya çalışıyorum, hepsinin DataFrame'de olması benim için ideal. Şimdi dosya 18GB büyüklüğünde ve RAM'im 32 GB'dir ancak sürekli bellek hataları alıyorum. Tecrübelerinden mümkün mü? Eğer bu sorunu çözmenin daha iyi bir yolunu bilmiyorsanız? (kovan tablosu? RAM'imin boyutunu 64'e yükseltir? …

33 python bigdata pandas anaconda

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

6

SVD ve PCA büyük verilerle nasıl yapılır?

Çok büyük miktarda veriye sahibim (yaklaşık 8GB). Analiz etmek için makine öğrenmeyi kullanmak istiyorum. Bu nedenle, verimlilik için veri boyutsallığını azaltmak için önce SVD'yi, sonra PCA'yı kullanmam gerektiğini düşünüyorum. Ancak, MATLAB ve Octave, bu kadar büyük bir veri setini yükleyemiyor. SVD'yi bu kadar büyük miktarda veriyle yapmak için hangi araçları …

29 bigdata data-mining dimensionality-reduction

3

Veri Bilimi Proje Fikirleri [kapalı]

Kapalı . Bu soru görüşe dayalı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu güncelleyin, böylece bu yayını düzenleyerek gerçekleri ve alıntıları yanıtlayabileceksiniz . 5 yıl önce kapandı . Bu soruyu sormak için doğru bir yer olup olmadığını bilmiyorum, ama Veri Bilimine adanmış bir topluluk bence …

23 machine-learning bigdata dataset

4

Devasa veriler için python'da t-sne uygulama hızını artırın

Her biri 200 boyutlu ( doc2vec) olan yaklaşık 1 milyon vektörde boyutsal küçültme yapmak istiyorum . Bunun için modülden TSNEuygulama kullanıyorum sklearn.manifoldve asıl sorun zaman karmaşıklığı. Bununla birlikte method = barnes_hut, hesaplama hızı hala düşüktür. Bir süre Bellek yetersiz bile. 130G RAM ile 48 çekirdekli bir işlemcide çalıştırıyorum. Bunu paralel …

18 python bigdata nlp scikit-learn dimensionality-reduction

2

Anlamsal analiz için büyük verilerde liblinear kullanın

Semantik analiz problemine ilişkin verileri eğitmek ve sınıflandırmayı tahmin etmek için Libsvm kullanıyorum . Ancak , semantik analiz n-boyutlu problemle ilgili olduğu için büyük ölçekli veriler üzerinde bir performans sorunu vardır . Geçen yıl, Liblinear piyasaya sürüldü ve performans darboğazını çözebilir. Ama çok fazla belleğe mal oldu . MapReduce , …

17 machine-learning bigdata libsvm

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Veri biliminde NoSQL veritabanının kullanımı

Veri analizi için MongoDB gibi NoSQL veritabanları nasıl kullanılabilir? Veri analizini daha hızlı ve güçlü hale getirebilecek özellikler nelerdir?

16 bigdata nosql mongodb

4

Örneğin altyapı yığınları / iş akışları / boru hatları aranıyor

Tüm "büyük veri" bileşenlerinin gerçek dünya kullanım durumunda nasıl oynandığını anlamaya çalışıyorum, örneğin hadoop, monogodb / nosql, fırtına, kafka, ... Bunun için kullanılan çok çeşitli araçlar olduğunu biliyorum farklı türlerde, ancak uygulamalardaki etkileşimleri hakkında daha fazla bilgi edinmek istiyorum, örneğin bir uygulama için düşünme makinesi öğrenmesi, webapp, çevrimiçi mağaza. Ziyaretçiler …

14 machine-learning bigdata efficiency scalability distributed

3

P değerleri ne zaman yanıltıcıdır?

Dikkat etmemiz gereken veri koşulları nelerdir, nerede p-değerleri istatistiksel anlamlılığa karar vermenin en iyi yolu olmayabilir? Bu kategoriye giren belirli sorun türleri var mı?

14 bigdata statistics

«bigdata» etiketlenmiş sorular