Veri Bilimi efficiency

12

Çok sayıda insan büyük veri terimini oldukça ticari bir şekilde kullanıyor, büyük veri kümelerinin hesaplamaya dahil olduğunu göstermenin bir yolu olarak ve bu nedenle potansiyel çözümlerin iyi performans göstermesi gerekiyor. Elbette, büyük veriler ölçeklenebilirlik ve verimlilik gibi her zaman ilişkili terimler taşırlar, ancak sorunu büyük bir veri sorunu olarak tanımlayan …

86 bigdata scalability efficiency performance

5

Bir model ne zaman hazırlanır?

Mantık, genellikle bir modeli benimseyerek, genelleştirme kapasitesinin arttığını belirtir. Bununla birlikte, bir modelin altında yatan bir noktada açıkça, verilerin karmaşıklığına bakılmaksızın modellerin daha da kötüleşmesine neden olduğu belirtildi. Modelinizin doğru dengeye oturduğunu ve modellemek istediği verileri desteklemediğini nereden biliyorsunuz? Not: Bu, " Neden Aşırı Kıyafet Veriliyor? "

56 efficiency algorithms parameter

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

Örneğin altyapı yığınları / iş akışları / boru hatları aranıyor

Tüm "büyük veri" bileşenlerinin gerçek dünya kullanım durumunda nasıl oynandığını anlamaya çalışıyorum, örneğin hadoop, monogodb / nosql, fırtına, kafka, ... Bunun için kullanılan çok çeşitli araçlar olduğunu biliyorum farklı türlerde, ancak uygulamalardaki etkileşimleri hakkında daha fazla bilgi edinmek istiyorum, örneğin bir uygulama için düşünme makinesi öğrenmesi, webapp, çevrimiçi mağaza. Ziyaretçiler …

14 machine-learning bigdata efficiency scalability distributed

1

XGBRegressor vs.Xgboost.Güzel hız farkı mı?

Modelimi aşağıdaki kodu kullanarak eğitirsem: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) yaklaşık 1 dakika içinde biter. Modelimi Sci-Kit öğrenme yöntemini kullanarak eğitirsem: import xgboost as xg max_depth …

13 machine-learning python decision-trees xgboost efficiency

2

Fırtına ve Hadoop arasındaki ödünleşmeler (MapReduce)

Birisi bana veri işleme için Hadoop Kümesi'nde Fırtına ve MapReduce arasında seçim yaparken oluşan ödünleşimlerden bahsedebilir mi? Tabii ki, bariz olanın yanı sıra, Hadoop (bir Hadoop Kümesinde MapReduce aracılığıyla işleme) bir toplu işleme sistemi ve Storm gerçek zamanlı bir işleme sistemidir. Hadoop Eco Sistemi ile biraz çalıştım, ancak Storm ile …

12 bigdata efficiency apache-hadoop distributed

2

FPGrowth, sık sık kalıp madenciliğinde hala “son teknoloji” olarak kabul ediliyor mu?

Sıkça Desen Madenciliği (FPM) problemini çözmek için algoritma geliştirmeyi bildiğim kadarıyla, iyileştirme yolunun bazı ana kontrol noktaları var. İlk olarak, Apriori algoritması 1993 yılında Agrawal ve ark. , sorunun resmileştirilmesiyle birlikte. Algoritma mümkün şerit kapalı bir miktar setleri 2^n - 1setleri (Powerset) verileri korumak için bir kafes kullanılarak gerçekleştirilir. Yaklaşmanın …

12 bigdata data-mining efficiency state-of-the-art

3

Bilimsel hesaplama için en iyi diller [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Çeşitli istatistiksel teknikler (regresyon, PCA, vb.) Örnek büyüklüğü ve boyutu ile nasıl ölçeklenir?

Örnek boyutu ve boyutu ile nasıl ölçeklendiğini açıklayan bilinen bir genel istatistiksel teknikler tablosu var mı? Örneğin, bir arkadaşım geçen gün bana n boyutundaki tek boyutlu verileri hızlı bir şekilde sıralamanın hesaplama süresinin n * log (n) olarak gittiğini söyledi. Örneğin, X'in d-boyutlu bir değişken olduğu X'e karşı regresyon yaparsak, …

10 bigdata statistics efficiency scalability

1

En verimli veri indeksleme tekniği nedir

Hepimizin bildiği gibi, Lucene (java için) veya Lucene.NET (.NET için), MurMurHash, B + Ağacı vb. Gibi iyi bilinen dizin oluşturma uygulamaları tarafından kullanılan bazı veri dizinleme teknikleri vardır. No-Sql / Object için Yönlendirilmiş Veritabanı (hangi C # ile biraz yazmaya / oynamaya çalışıyorum), hangi tekniği önerirsiniz? MurMurhash-2 hakkında okudum ve …

10 nosql efficiency indexing data-indexing-techniques .net

4

Kütüphaneleri kullanırken verimlilik sağlamak neden zor?

Herhangi bir küçük veritabanı işlemesi, dilin kendisinden kütüphaneler ve / veya yardımcı programlar kullanan Python / Perl / ... komut dosyaları ile kolayca ele alınabilir. Bununla birlikte, performans söz konusu olduğunda, insanlar C / C ++ / düşük seviyeli dillere ulaşma eğilimindedir. Kodu ihtiyaçlara göre uyarlama olasılığı, bu dilleri BigData …

10 bigdata efficiency performance

«efficiency» etiketlenmiş sorular