Veri Bilimi bigdata

8

Bu yazıda okudum , büyük verilerin oluşturduğu Büyük Veri için uygun olan R dili5TB ve bu tür verilerle çalışmanın fizibilitesi hakkında bilgi sağlamak iyi bir iş çıkarırken, Rhakkında çok az bilgi sağlıyor Python. PythonBu kadar fazla veriyle de çalışabilir miyim diye merak ediyordum .

14 bigdata python

1

İlişkisel veritabanı ilişkisel olmamasından daha iyi performans gösterdiğinde

MySQL gibi ilişkisel bir veritabanı, MongoDB gibi ilişkisel olmayandan daha iyi bir performansa sahip olduğunda? Geçen gün Quora'da, Quora'nın neden MySQL'i hala arka uç olarak kullandıkları ve performanslarının hala iyi olduğu hakkında bir soru gördüm.

13 bigdata performance databases nosql

4

Büyük veri vaka çalışması veya kullanım örneği

Farklı veri türlerinin Büyük Veri Analitiğini nasıl kullandığına dair birçok blog \ makalesi okudum. Ancak bu makalenin çoğunda bahsedilemiyor Bu şirketlerin kullandığı veriler. Verilerin boyutu neydi Verileri işlemek için ne tür araçlar teknolojileri kullandılar Karşılaştıkları sorun neydi ve verileri nasıl elde ettikleri hakkında bilgi, sorunu çözmelerine yardımcı oldu. İhtiyaçlarına göre …

13 data-mining bigdata usecase

4

Bir word2vec modeli eğitirken transfer öğrenimini kullanmaktan yararlanabilir miyiz?

Google Haberler verileri vb. Gibi önceden eğitilmiş bir modelin önceden eğitilmiş ağırlıklarını bulmak istiyorum. Kendim için yeterli miktarda (10 GB vb.) Veri içeren yeni bir model geliştirmeyi zor buldum. Bu nedenle, önceden eğitilmiş katman ağırlıkları alabileceğim ve bu ağırlıkları alan adına özgü kelimelerim üzerinde yeniden eğitebileceğim transfer öğreniminden yararlanmak istiyorum. …

13 machine-learning bigdata word2vec

7

Veri bilimcisinin 'eski adı' nedir?

'Veri bilimi' ve 'veri bilimcisi' gibi terimler günümüzde giderek daha fazla kullanılmaktadır. Birçok şirket 'veri bilimcisi' işe alıyor. Ama bunun tamamen yeni bir iş olduğunu düşünmüyorum. Veriler geçmişten geldi ve birileri verilerle uğraşmak zorunda kaldı. Sanırım 'veri bilimcisi' terimi daha popüler hale geliyor çünkü daha süslü ve 'seksi' geliyor Veri …

12 bigdata

2

Tercih Eşleme Algoritması

Üzerinde çalıştığım ve şu soruna bir çözüm oluşturmam gereken bu yan proje var. İki grup insanım var (müşterilerim). Grup , belirli bir ürünü Asatın almak ve gruplamak Bniyetindedir X. Ürün bir dizi özelliğe sahiptir x_ive amacım , tercihleri arasında Ave Beşleştirerek işlemi kolaylaştırmaktır . Ana fikir, ürününün ihtiyaçlarına daha uygun …

12 bigdata text-mining recommender-system

2

Fırtına ve Hadoop arasındaki ödünleşmeler (MapReduce)

Birisi bana veri işleme için Hadoop Kümesi'nde Fırtına ve MapReduce arasında seçim yaparken oluşan ödünleşimlerden bahsedebilir mi? Tabii ki, bariz olanın yanı sıra, Hadoop (bir Hadoop Kümesinde MapReduce aracılığıyla işleme) bir toplu işleme sistemi ve Storm gerçek zamanlı bir işleme sistemidir. Hadoop Eco Sistemi ile biraz çalıştım, ancak Storm ile …

12 bigdata efficiency apache-hadoop distributed

3

Büyük bir veritabanına yapılan sorgu ihmal edilebilir gecikme ile nasıl geri döner?

Örneğin, Google'da bir şey ararken sonuçlar hemen anında geri döner. Google'ın sayfaları algoritmalar vb. İle sıraladığını ve dizine eklediğini anlıyorum, ancak dizine eklenebilecek olası tüm sorguların sonuçlarının (ve sonuçların kişiselleştirildiğini ve bunun daha da olanaksız kıldığını) hayal ediyorum? Ayrıca, Google'ın donanımındaki donanım gecikmesi çok fazla olmaz mı? Google'daki verilerin tümü …

12 bigdata google search

1

Kaç LSTM hücresi kullanmalıyım?

Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

FPGrowth, sık sık kalıp madenciliğinde hala “son teknoloji” olarak kabul ediliyor mu?

Sıkça Desen Madenciliği (FPM) problemini çözmek için algoritma geliştirmeyi bildiğim kadarıyla, iyileştirme yolunun bazı ana kontrol noktaları var. İlk olarak, Apriori algoritması 1993 yılında Agrawal ve ark. , sorunun resmileştirilmesiyle birlikte. Algoritma mümkün şerit kapalı bir miktar setleri 2^n - 1setleri (Powerset) verileri korumak için bir kafes kullanılarak gerçekleştirilir. Yaklaşmanın …

12 bigdata data-mining efficiency state-of-the-art

4

HPC kümeleriyle çalışma

Üniversitemde bir HPC bilgi işlem kümemiz var. Kümeyi sınıflandırıcıları eğitmek için kullanıyorum vb. Yani, genellikle, (örneğin python scikit-learn komut dosyası) kümeye bir iş göndermek için, (diğerleri arasında) gibi bir komut içeren bir Bash komut dosyası yazmak gerekir qsub script.py. Ancak, bu süreci çok sinir bozucu buluyorum. Genellikle ne olur benim …

11 bigdata data-mining

3

Bilimsel hesaplama için en iyi diller [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Hangisi daha hızlı: Büyük JSON veri kümelerinde PostgreSQL vs MongoDB?

Ben ~ 300 bayt her 9m JSON nesneleri ile büyük bir veri kümesi var. Bunlar bir bağlantı toplayıcısının gönderileridir: temel olarak bağlantılar (bir URL, başlık ve yazar kimliği) ve yorumlar (metin ve yazar kimliği) + meta veriler. Alt kayıtlara işaret eden kimlikleri olan bir dizi alanına sahip olmaları dışında, bir …

10 data-mining bigdata databases sql mongodb

2

Ölçeklenebilir Aykırı Değer / Anomali Tespiti

Hadoop, Kovan, Elastik Arama (diğerleri arasında) kullanarak büyük bir veri altyapısı kurmaya çalışıyorum ve bazı veri kümeleri üzerinde bazı algoritmalar çalıştırmak istiyorum. Algoritmaların kendilerinin ölçeklenebilir olmasını istiyorum, bu yüzden Weka, R ve hatta RHadoop gibi araçları kullanmak hariç tutulur. Apache Mahout Kütüphanesi iyi bir seçenek gibi görünüyor ve bu özellikleri …

10 data-mining bigdata algorithms outlier

3

Çeşitli istatistiksel teknikler (regresyon, PCA, vb.) Örnek büyüklüğü ve boyutu ile nasıl ölçeklenir?

Örnek boyutu ve boyutu ile nasıl ölçeklendiğini açıklayan bilinen bir genel istatistiksel teknikler tablosu var mı? Örneğin, bir arkadaşım geçen gün bana n boyutundaki tek boyutlu verileri hızlı bir şekilde sıralamanın hesaplama süresinin n * log (n) olarak gittiğini söyledi. Örneğin, X'in d-boyutlu bir değişken olduğu X'e karşı regresyon yaparsak, …

10 bigdata statistics efficiency scalability

«bigdata» etiketlenmiş sorular