«bigdata» etiketlenmiş sorular

Büyük veri, eldeki veritabanı yönetim araçlarını veya geleneksel veri işleme uygulamalarını kullanarak işlenmesi zorlaşacak kadar büyük ve karmaşık veri kümelerinin toplanması için kullanılan terimdir. Zorluklar arasında yakalama, iyileştirme, depolama, arama, paylaşma, aktarma, analiz ve görselleştirme yer alır.

8
Python büyük veriler için uygun mu?
Bu yazıda okudum , büyük verilerin oluşturduğu Büyük Veri için uygun olan R dili5TB ve bu tür verilerle çalışmanın fizibilitesi hakkında bilgi sağlamak iyi bir iş çıkarırken, Rhakkında çok az bilgi sağlıyor Python. PythonBu kadar fazla veriyle de çalışabilir miyim diye merak ediyordum .
14 bigdata  python 


4
Büyük veri vaka çalışması veya kullanım örneği
Farklı veri türlerinin Büyük Veri Analitiğini nasıl kullandığına dair birçok blog \ makalesi okudum. Ancak bu makalenin çoğunda bahsedilemiyor Bu şirketlerin kullandığı veriler. Verilerin boyutu neydi Verileri işlemek için ne tür araçlar teknolojileri kullandılar Karşılaştıkları sorun neydi ve verileri nasıl elde ettikleri hakkında bilgi, sorunu çözmelerine yardımcı oldu. İhtiyaçlarına göre …

4
Bir word2vec modeli eğitirken transfer öğrenimini kullanmaktan yararlanabilir miyiz?
Google Haberler verileri vb. Gibi önceden eğitilmiş bir modelin önceden eğitilmiş ağırlıklarını bulmak istiyorum. Kendim için yeterli miktarda (10 GB vb.) Veri içeren yeni bir model geliştirmeyi zor buldum. Bu nedenle, önceden eğitilmiş katman ağırlıkları alabileceğim ve bu ağırlıkları alan adına özgü kelimelerim üzerinde yeniden eğitebileceğim transfer öğreniminden yararlanmak istiyorum. …

7
Veri bilimcisinin 'eski adı' nedir?
'Veri bilimi' ve 'veri bilimcisi' gibi terimler günümüzde giderek daha fazla kullanılmaktadır. Birçok şirket 'veri bilimcisi' işe alıyor. Ama bunun tamamen yeni bir iş olduğunu düşünmüyorum. Veriler geçmişten geldi ve birileri verilerle uğraşmak zorunda kaldı. Sanırım 'veri bilimcisi' terimi daha popüler hale geliyor çünkü daha süslü ve 'seksi' geliyor Veri …
12 bigdata 

2
Tercih Eşleme Algoritması
Üzerinde çalıştığım ve şu soruna bir çözüm oluşturmam gereken bu yan proje var. İki grup insanım var (müşterilerim). Grup , belirli bir ürünü Asatın almak ve gruplamak Bniyetindedir X. Ürün bir dizi özelliğe sahiptir x_ive amacım , tercihleri arasında Ave Beşleştirerek işlemi kolaylaştırmaktır . Ana fikir, ürününün ihtiyaçlarına daha uygun …

2
Fırtına ve Hadoop arasındaki ödünleşmeler (MapReduce)
Birisi bana veri işleme için Hadoop Kümesi'nde Fırtına ve MapReduce arasında seçim yaparken oluşan ödünleşimlerden bahsedebilir mi? Tabii ki, bariz olanın yanı sıra, Hadoop (bir Hadoop Kümesinde MapReduce aracılığıyla işleme) bir toplu işleme sistemi ve Storm gerçek zamanlı bir işleme sistemidir. Hadoop Eco Sistemi ile biraz çalıştım, ancak Storm ile …

3
Büyük bir veritabanına yapılan sorgu ihmal edilebilir gecikme ile nasıl geri döner?
Örneğin, Google'da bir şey ararken sonuçlar hemen anında geri döner. Google'ın sayfaları algoritmalar vb. İle sıraladığını ve dizine eklediğini anlıyorum, ancak dizine eklenebilecek olası tüm sorguların sonuçlarının (ve sonuçların kişiselleştirildiğini ve bunun daha da olanaksız kıldığını) hayal ediyorum? Ayrıca, Google'ın donanımındaki donanım gecikmesi çok fazla olmaz mı? Google'daki verilerin tümü …
12 bigdata  google  search 

1
Kaç LSTM hücresi kullanmalıyım?
Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
FPGrowth, sık sık kalıp madenciliğinde hala “son teknoloji” olarak kabul ediliyor mu?
Sıkça Desen Madenciliği (FPM) problemini çözmek için algoritma geliştirmeyi bildiğim kadarıyla, iyileştirme yolunun bazı ana kontrol noktaları var. İlk olarak, Apriori algoritması 1993 yılında Agrawal ve ark. , sorunun resmileştirilmesiyle birlikte. Algoritma mümkün şerit kapalı bir miktar setleri 2^n - 1setleri (Powerset) verileri korumak için bir kafes kullanılarak gerçekleştirilir. Yaklaşmanın …

4
HPC kümeleriyle çalışma
Üniversitemde bir HPC bilgi işlem kümemiz var. Kümeyi sınıflandırıcıları eğitmek için kullanıyorum vb. Yani, genellikle, (örneğin python scikit-learn komut dosyası) kümeye bir iş göndermek için, (diğerleri arasında) gibi bir komut içeren bir Bash komut dosyası yazmak gerekir qsub script.py. Ancak, bu süreci çok sinir bozucu buluyorum. Genellikle ne olur benim …

3
Bilimsel hesaplama için en iyi diller [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


2
Ölçeklenebilir Aykırı Değer / Anomali Tespiti
Hadoop, Kovan, Elastik Arama (diğerleri arasında) kullanarak büyük bir veri altyapısı kurmaya çalışıyorum ve bazı veri kümeleri üzerinde bazı algoritmalar çalıştırmak istiyorum. Algoritmaların kendilerinin ölçeklenebilir olmasını istiyorum, bu yüzden Weka, R ve hatta RHadoop gibi araçları kullanmak hariç tutulur. Apache Mahout Kütüphanesi iyi bir seçenek gibi görünüyor ve bu özellikleri …

3
Çeşitli istatistiksel teknikler (regresyon, PCA, vb.) Örnek büyüklüğü ve boyutu ile nasıl ölçeklenir?
Örnek boyutu ve boyutu ile nasıl ölçeklendiğini açıklayan bilinen bir genel istatistiksel teknikler tablosu var mı? Örneğin, bir arkadaşım geçen gün bana n boyutundaki tek boyutlu verileri hızlı bir şekilde sıralamanın hesaplama süresinin n * log (n) olarak gittiğini söyledi. Örneğin, X'in d-boyutlu bir değişken olduğu X'e karşı regresyon yaparsak, …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.