Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap


7
Verileri temizlemek için organize süreçler
R'yi kullanan veri bilimi ile sınırlı uğraşımdan, kötü verileri temizlemenin analiz için veri hazırlamanın çok önemli bir parçası olduğunu anladım. Verileri işlemeden önce temizlemek için en iyi yöntemler veya işlemler var mı? Öyleyse, bu en iyi uygulamaların bazılarını uygulayan otomatik veya yarı otomatik araçlar var mı?
34 r  data-cleaning 

5
Pandalarla analiz için 20GB'lık bir dosya açmak
Şu anda makine öğrenmesi amacıyla panda ve python içeren bir dosya açmaya çalışıyorum, hepsinin DataFrame'de olması benim için ideal. Şimdi dosya 18GB büyüklüğünde ve RAM'im 32 GB'dir ancak sürekli bellek hataları alıyorum. Tecrübelerinden mümkün mü? Eğer bu sorunu çözmenin daha iyi bir yolunu bilmiyorsanız? (kovan tablosu? RAM'imin boyutunu 64'e yükseltir? …

3
Keras cinsinden çoklu GPU
Keras kütüphanesinde (veya tensorflow) çoklu GPU'larda bölüm eğitimini nasıl programlayabilirsiniz? 8 GPU'lu bir Amazon ec2 örneğinde olduğunuzu ve hepsini daha hızlı eğitmek için kullanmak istediğinizi varsayalım, ancak kodunuz yalnızca tek bir CPU veya GPU için.

4
Gürültü Karşıtlığı Tahmini (NCE) kaybının sezgisel açıklaması?
Bu iki kaynaktan NCE'yi (bir aday örnekleme şekli) okudum: Tensorflow yazımı Orjinal kağıt Birisi bana şu konuda yardımcı olabilir: NCE'nin nasıl çalıştığının basit bir açıklaması (Yukarıdakileri ayrıştırmanın ve anlamanın zor olduğunu gördüm, bu yüzden orada sunulan matematiğe yol açan sezgisel bir şey harika olurdu) Yukarıdaki 1. maddeden sonra, bunun Negatif …

5
Apache Spark vs Hadoop'un kullanım durumları nelerdir
Hadoop 2.0 ve YARN ile Hadoop'un artık yalnızca harita azaltma çözümleriyle bağlı olmadığı söyleniyor. Bu gelişme ile birlikte, Apache Spark vs Hadoop'un HDFS'nin her ikisine de oturduğunu düşünen kullanım durumları nelerdir? Spark'ın tanıtım belgelerini okudum, ancak merak ediyorum herhangi biri Spark'la Hadoop'a kıyasla daha verimli ve daha kolay bir sorunla …

1
Makale: Katman Normalizasyonu, Tekrarlayan Toplu Normalizasyonu (2016) ve Toplu Normalleştirilmiş RNN'i (2015) arasındaki fark nedir?
Yani, son zamanlarda bir Katman Normalleştirme kağıdı var. Keras'larda da bir uygulaması var . Ancak, Tekrarlanan Toplu Normalizasyon (Cooijmans, 2016) ve Toplu Normalleştirilmiş Tekrarlayan Sinir Ağları (Laurent, 2015) başlıklı makaleler olduğunu hatırlıyorum . Bu üç arasındaki fark nedir? Anlamıyorum bu İlgili Çalışma bölümü var: Parti normalizasyonu daha önce tekrarlayan sinir …



3
Softmax sınıflandırıcısında normalizasyonu yapmak için neden exp fonksiyonunu kullanmalısınız?
Neden standart normalleştirme yerine softmax kullanılır? Bu sorunun en üst cevabının yorum alanında, @Kilian Batzner da beni şaşırtan 2 soru sordu. Sayısal faydalar dışında kimse açıklama yapmıyor gibi görünüyor. Çapraz Entropi Kaybı kullanma nedenlerini anlıyorum, ancak bunun softmax ile ilişkisi nedir? "Softmax işlevi tahminler ile gerçekler arasındaki çapraz entropiyi en …


7
Makine öğrenme görevleri için veriler neden karıştırılmalıdır?
Makine öğrenim görevlerinde verileri karıştırmak ve normalleştirmek normaldir. Normalleştirmenin amacı açıktır (aynı özellik değer aralığına sahip için). Ancak, çok fazla mücadele ettikten sonra, verileri karıştırmak için değerli bir sebep bulamadım. Bu yazı okudum var burada biz verileri karıştırmak gerektiğinde tartışan, ama biz verileri karıştırmak neden belli değil mi. Dahası, parti …

2
Zemin Gerçeği Nedir?
Makine Öğrenmesi bağlamında, Zemin Gerçeği kavramının çok fazla kullanıldığını gördüm . Çok şey aradım ve Wikipedia'da şu tanımı buldum : Makine öğrenmesinde "temel gerçek" terimi, eğitim setinin denetimli öğrenme teknikleri için sınıflandırılmasının doğruluğunu ifade eder. Bu, araştırma modellerini kanıtlamak veya yanlışlamak için istatistiksel modellerde kullanılır. "Temel gerçeğe uygunluk" terimi, bu …

5
Liste listesini Pandas Dataframe'e dönüştürme
Aşağıdakine benzeyen bir liste listesini Pandas Dataframe'e dönüştürmeye çalışıyorum [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] Temel olarak dizideki …
30 pandas 

1
Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?
100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.