Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

2
Veri biliminde etik nasıl uygulanmalı
Son zamanlarda facebook, kullanıcıların duygularını değiştirip değiştiremediklerini ve şimdi okcupid olup olmadığını görmek için kullanıcılarını deniyordu . Profesyonel bir veri bilimcisi olmasam da Cathy O'Neill'in 'Veri Bilimi Yapmak' kitabından veri bilimi etiği hakkında okudum ve bunun profesyonellerin akademik seviyede (beklediğim) öğretildiği bir şey olup olmadığını bilmek istiyorum. göz ardı edilir …

5
Anomali tespiti ile kedileri görsel olarak tespit etme
Şimdiye kadar sınırlı makine öğrenimi deneyimimi artırmanın bir yolu olarak taahhüt ettiğim bir hobi projem var. Bu konuda Coursera MOOC dersini aldım ve tamamladım. Benim sorum projenin fizibilitesi ile ilgili. Görev şudur: Komşu kediler zaman zaman bahçemi ziyaret ediyorlar, bu da benim çimlerimde dışkılama eğilimindeyken sevmediğim. Bir kedi olduğunda beni …

5
İlişkisel DBMS'mizdeki veriler büyüyor, NoSQL'e geçme zamanı geldi mi?
E-Öğrenim amacıyla bir sosyal ağ uygulaması oluşturduk. Laboratuarımızda üzerinde araştırma yaptığımız deneysel bir proje. Bazı durum çalışmalarında bir süredir kullanılmaktadır ve ilişkisel DBMS'mizdeki (SQL Server 2008) veriler artmaktadır. Şimdi birkaç gigabayt ve masalar birbirine oldukça bağlı. Performans hala iyi, ancak diğer seçenekleri ne zaman düşünmeliyiz? Performans meselesi mi?

2
Anlamsal analiz için büyük verilerde liblinear kullanın
Semantik analiz problemine ilişkin verileri eğitmek ve sınıflandırmayı tahmin etmek için Libsvm kullanıyorum . Ancak , semantik analiz n-boyutlu problemle ilgili olduğu için büyük ölçekli veriler üzerinde bir performans sorunu vardır . Geçen yıl, Liblinear piyasaya sürüldü ve performans darboğazını çözebilir. Ama çok fazla belleğe mal oldu . MapReduce , …

1
Keras'ın fit fonksiyonunun validation_split parametresi nasıl çalışır?
Keras Sıralı model sığdırma işlevinde doğrulama bölme https://keras.io/models/sequential/ adresinde aşağıdaki gibi belgelenmiştir : validation_split: 0 ile 1 arasında yüzer. Doğrulama verisi olarak kullanılacak egzersiz verilerinin oranı. Model, eğitim verilerinin bu kısmını ayıracak, üzerinde eğitim vermeyecek ve her dönemin sonunda bu verilerdeki kaybı ve model metriklerini değerlendirecektir. Doğrulama verileri, karıştırmadan önce …

3
Derin öğrenme modellerini eğitirken mini yığın bellek etkisini nasıl hesaplayabilirim?
Andrej Karphaty'den bu notlara dayanarak modelimi eğitmek için bir GPU'nun ihtiyaç duyduğu bellek miktarını hesaplamaya çalışıyorum: http://cs231n.github.io/convolutional-networks/#computational-considerations Benim ağ sahiptir 532752 aktivasyonlar ve 19072984 parametreleri (ağırlık ve bias). Bunların tümü 32 bit kayan değerlerdir, bu nedenle her biri bellekte 4 bayt alır. Giriş görüntüm 180x50x1 (genişlik x yükseklik x derinlik) …

4
Örnek sayısına karşı örnek sayısına ilişkin herhangi bir “temel kural” var mı? (küçük veri setleri)
Merak ediyorum, özelliklerin sayısı ile gözlem sayısı arasında herhangi bir buluşsal yöntem varsa. Açıkçası, eğer bir dizi özellik gözlem sayısına eşitse, model aşırıya kaçacaktır. Seyrek yöntemler (LASSO, elastik ağ) kullanarak modeli azaltmak için çeşitli özellikleri kaldırabiliriz. Benim sorum (teorik olarak): Model seçimini değerlendirmek için metrikleri kullanmadan önce , optimum özellik …


2
Sınıflandırıcıların doğruluğu nasıl artırılır?
Rasgele ağaçlar ve diğer sınıflandırıcılar üzerinde denemek için OpenCV letter_recog.cpp örneği kullanıyorum. Bu örnekte altı sınıflandırıcı - rastgele ağaçlar, artırma, MLP, kNN, naif Bayes ve SVM uygulamaları vardır. Eğitim ve test için ikiye böldüğüm 20000 örnek ve 16 özelliğe sahip UCI harf tanıma veri kümesi kullanılır. SVM ile ilgili deneyimim …

5
İkili sınıflandırma algoritmasını seçin
Bir ikili sınıflandırma sorunum var: Eğitim setinde yaklaşık 1000 numune İkili, sayısal ve kategorik olmak üzere 10 özellik Bu tür bir problem için hangi algoritma en iyi seçimdir? Varsayılan olarak, nispeten temiz ve gürültülü olmayan veriler için en iyi olduğu düşünülen SVM (nominal özellik değerlerine ikili özelliklere dönüştürülmüş ön) sahip …

5
deniz dibi ısı haritasını büyüt
corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
Tfrecord dosyasını parçalara bölmenin faydası nedir?
Tensorflow ile konuşma tanıma üzerinde çalışıyorum ve LSTM NN'yi büyük dalgalar veri kümesiyle eğitmeyi planlıyorum. Performans artışları nedeniyle tfrecord kullanmayı planlıyorum. İnternette tfrecords dosyalarının parçalara bölündüğü birkaç örnek vardır (örn. Inception). Benim sorum: tfrecords dosyasını parçalara ayırmanın yararı nedir? Bu bölünmenin ek performans kazancı var mı?

1
Derin Sinir Ağı - ReLU ile Geriye İtiraz
ReLU ile geri yayılımı elde etmekte biraz zorlanıyorum ve biraz iş yaptım, ancak doğru yolda olup olmadığımdan emin değilim. Maliyet Fonksiyonu: ygerçek değeri ve y tahmin edilen bir değerdir. Ayrıcadaimax> 0olduğunu varsayın.12(y−y^)212(y−y^)2\frac{1}{2}(y-\hat y)^2yyyy^y^\hat yxxx 1 Kat ReLU, burada 1. kat ağırlığı w1w1w_1 dCdw1=dCdRdRdw1dCdw1=dCdRdRdw1\frac{dC}{dw_1}=\frac{dC}{dR}\frac{dR}{dw_1} dCw1=(y−ReLU(w1x))(x)dCw1=(y−ReLU(w1x))(x)\frac{dC}{w_1}=(y-ReLU(w_1x))(x) 2 kat ReLU, burada 1. kattaki …

5
Performansı artırmak için makine öğreniminde seyrek ve yoğun verileri birleştirme
Kestirimci olan seyrek özelliklerim var, ayrıca kestirimci olan bazı yoğun özelliklere de sahibim. Sınıflandırıcının genel performansını artırmak için bu özellikleri bir araya getirmem gerekiyor. Şimdi, bunları bir araya getirmeye çalıştığımda, yoğun özellikler seyrek özelliklere daha fazla hakim olma eğilimindedir, bu nedenle AUC'de sadece yoğun özelliklere sahip modele kıyasla sadece% 1 …

2
Verileri test etmek için de normalleştirme uygulamalıyız?
Yazar tanımlama sorunu üzerine bir proje yapıyorum. Verileri eğitmek için tf-idf normalizasyonunu uyguladım ve daha sonra bu veriler üzerinde bir svm eğitimi aldım. Şimdi sınıflandırıcıyı kullanırken test verilerini de normalleştirmeliyim. Normalleşmenin temel amacının öğrenme algo'yu öğrenirken daha önemli özelliklere daha fazla ağırlık vermektir. Bu yüzden bir kez eğitildikten sonra, hangi …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.