Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap


4
Yüksek derecede dengesiz veri setlerinin eğitimi için hızlı rehber
Eğitim setinde yaklaşık 1000 pozitif ve 10000 negatif örnek ile bir sınıflandırma problemim var. Yani bu veri seti oldukça dengesiz. Düz rastgele ormanlar sadece tüm test örneklerini çoğunluk sınıfı olarak işaretlemeye çalışıyor. Alt örnekleme ve ağırlıklı rastgele ormanlarla ilgili bazı iyi cevaplar burada verilmiştir: Çok taraflı veri kümeleriyle bir Ağaç …

6
SVD ve PCA büyük verilerle nasıl yapılır?
Çok büyük miktarda veriye sahibim (yaklaşık 8GB). Analiz etmek için makine öğrenmeyi kullanmak istiyorum. Bu nedenle, verimlilik için veri boyutsallığını azaltmak için önce SVD'yi, sonra PCA'yı kullanmam gerektiğini düşünüyorum. Ancak, MATLAB ve Octave, bu kadar büyük bir veri setini yükleyemiyor. SVD'yi bu kadar büyük miktarda veriyle yapmak için hangi araçları …

4
Daha sonraki evrişim katmanları nasıl çalışır?
Bu soru, "evrişim katmanlarının tam olarak nasıl çalıştığını" gösterir. Bir gri tonlamalı görüntüm olduğunu varsayalım . Yani görüntünün bir kanalı var. Birinci tabaka içinde, bir uygulama 3 x 3 ile kıvrım k 1 filtre ve dolgu. Sonra başka bir büklüm katmanı 5 x 5 kıvrımlar ve k 2 filtreler. Kaç …

3
Bir sinir ağı eğitmek için CPU ve GPU arasında seçim yapma
Bir GPU’nun “ek yükü” hakkında tartışmalar gördüm ve “küçük” ağlar için bir CPU’da (veya CPU ağında) çalışmak GPU’dan daha hızlı olabilir. 'Küçük' ile kastedilen nedir? Örneğin, 100 gizli üniteye sahip tek katmanlı bir MLP 'küçük' olur mu? 'Küçük' tanımımız tekrarlayan mimarilerde değişiyor mu? CPU veya GPU'da eğitim alıp almayacağınıza karar …


4
Sinir Ağı ayrıştırma dize veri?
Böylece, bir sinir ağının kalıpları tanımak ve girdileri sınıflandırmak için nasıl çalışabileceğini öğrenmeye başladım ve yapay bir sinir ağının görüntü verilerini nasıl toplayabildiğini ve görüntüleri kategorize edebileceğini gördüm ( convnetj'lerle demo ) ve burada anahtar görüntünün altını çizmektir ve her piksel bir giriş nöronunu ağa uyarır. Ancak, bu dize girişleriyle …

4
Rastgele Orman ne zaman SVM ve ne zaman kullanılır?
Tüm bir kullanmak Random Forestüzerinde SVMtam tersi ve yardımcısı? Bunu anlıyorum cross-validationve model karşılaştırması, bir model seçmenin önemli bir yönüdür, ancak burada iki yöntemin genel kuralları ve sezgisel özellikleri hakkında daha fazla bilgi edinmek istiyorum. Birisi lütfen sınıflandırıcıların inceliklerini, güçlü yönlerini ve zayıflıklarını, ayrıca her birine en uygun olan sorunları …

4
Özgeçmiş verilerine dayanarak iş sınıflandırmasını yapmak için hangi algoritmaları kullanmalıyım?
Not: R'de her şeyi yapıyorum. Sorun şöyle devam ediyor: Temel olarak, özgeçmişlerin bir listesi (CV) var. Bazı adaylar daha önce iş tecrübesine sahip olacak, bazıları ise işe yaramayacak. Buradaki amaç: Özgeçmişlerindeki metinlere dayanarak, onları farklı iş sektörlerine göre sınıflandırmak istiyorum. Özellikle adayların herhangi bir deneyime sahip olmadığı / öğrenci olmadığı …

4
Yeni gözlemler mevcutsa, bir model yeniden eğitilmeli mi?
Bu yüzden, bu konuda herhangi bir literatür bulamamıştım, ancak düşünce vermeye değer bir şey gibi görünüyor: Yeni gözlemler mevcutsa model eğitimi ve optimizasyondaki en iyi uygulamalar nelerdir? Tahminler bozulmaya başlamadan önce bir modelin yeniden eğitim süresi / sıklığını belirlemenin bir yolu var mı? Parametreler toplanmış veriler için yeniden optimize edilmişse …

3
MultiOutputClassifier'dan predict_proba'yı anlama
Bu örneği , Random Forest modeli ile çoklu işlem sınıflandırma yapmak için, scikit-learn web sitesinde takip ediyorum . from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) …

6
Model hiperparametreleri ve model parametreleri arasındaki fark nedir?
Model hiperparametresi ve model parametresi gibi terimlerin önceden netleştirilmeden ağ üzerinde değişmeli olarak kullanıldığını fark ettim . Bunun yanlış olduğunu ve açıklama gerektirdiğini düşünüyorum. Bir makine öğrenim modeli, bir SVM / NN / NB tabanlı sınıflandırıcı veya görüntü tanıyıcı, yalnızca akla ilk gelen şeyleri düşünün. Nelerdir hyperparameters ve parametreler modelin? …

4
Jaccard benzerliği ve Cosine Benzerliği için uygulamalar ve farklılıklar
Jaccard benzerliği ve kosinüs benzerliği , ürün benzerliklerini karşılaştırırken çok yaygın iki ölçümdür. Ancak hangi durumda hangisinin diğerinden daha fazla olması gerektiği konusunda çok net değilim. Birisi bu iki ölçümün (tanım veya hesaplamanın değil kavram ya da prensipteki farkın) ve bunların tercih edilen uygulamalarındaki farkları netleştirmeye yardımcı olabilir mi?
27 similarity 

3
Hypertuning XGBoost parametreleri
XGBoost, hem kategorik hem de sürekli bağımlı değişkenlerle uğraşmak konusunda mükemmel bir iş çıkarıyor. Ancak, bir XGBoost problemi için optimize edilmiş parametreleri nasıl seçerim? Son Kaggle problemi için parametreleri şöyle uyguladım: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed …
27 r  python  xgboost 

1
Çoklu özelliklere sahip RNN'ler
Makine Öğrenmesi algoritmalarıyla (temel Rastgele Orman ve Doğrusal Regresyon türü şeyler) çalışan bir miktar kendi kendine öğrendiğim bilgiye sahibim. Dallara ayrılmaya ve RNN'leri Keras ile öğrenmeye başladım. Genellikle stok tahminleri içeren örneklerin çoğuna bakarken, özellik tarihi olan ve çıktı olan 1 sütun dışında uygulanan birden çok özelliğin temel örneklerini bulamadım. …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.