«scikit-learn» etiketlenmiş sorular

Scikit-learn, makine öğrenimi, veri madenciliği ve veri analizi için basit ve etkili bir araçtan oluşan bir Python modülüdür. NumPy, SciPy ve matplotlib üzerine kurulmuştur. 3 Maddeli BSD lisansı altında dağıtılır.

2
Büyük veri kümesi için etkili boyutsallık azaltma
~ 1M satır ve ~ 500K seyrek özelliklere sahip bir veri setim var. 1K-5K yoğun özellik sırasına göre boyutlandırmayı bir yere azaltmak istiyorum. sklearn.decomposition.PCAseyrek veriler üzerinde çalışmaz ve kullanmayı denedim sklearn.decomposition.TruncatedSVDama oldukça hızlı bir şekilde bellek hatası alıyorum. Bu ölçekte etkili boyutsallık azaltma seçeneklerim nelerdir?

1
CPU kullanımı ve belleğinde scikit-learn n_jobs parametresi
Scikit-learn hakkındaki çoğu tahmin edicide, paralel işler oluşturmak için / yöntemlerinde bir n_jobsparametre vardır . Sadece 1 Python işlemi oluşturduğunu ve çekirdekleri maksimuma çıkardığını ve CPU kullanımının% 2500'e ulaşmasına neden olduğunu fark ettim . Bu, ~% 100 kullanımda birden fazla Python işlemi oluşturan pozitif 1 tamsayı> 1'e ayarlamaktan oldukça farklıdır.fitpredictjoblib-1 …

3
Python için kullanıma hazır iyi dil modelleri var mı?
Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Scikit-Learn Label Yayılımını grafik yapılandırılmış verilerde nasıl kullanabilirim?
Araştırmamın bir parçası olarak, grafik üzerinde etiket yayılımı yapmakla ilgileniyorum. Özellikle bu iki yöntemle ilgileniyorum: Xiaojin Zhu ve Zoubin Ghahramani. Etiket yayılımı ile etiketlenmiş ve etiketlenmemiş verilerden öğrenme. Teknik Rapor CMU-CALD-02-107, Carnegie Mellon Üniversitesi, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, Bernhard Schoelkopf. Yerel ve küresel …

3
Bir hashing vectorizer ve bir tfidf vectorizer arasındaki fark nedir
Her bir belge için bir metin belgeleri grubunu kelime vektörlerine dönüştürüyorum. Ben bir TfidfVectorizer ve bir HashingVectorizer kullanarak denedim A'nın yaptığı gibi puanları HashingVectorizerdikkate almadığını anlıyorum . Hala çalışmamın nedeni , burada ve burada açıklandığı gibi, büyük veri kümeleriyle uğraşırken sağladığı esneklik . (Orijinal veri kümemde 30 milyon belge var)IDFTfidfVectorizerHashingVectorizer …

3
Bilimsel hesaplama için en iyi diller [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Bir sınıfı 24.000 kategoriyle nasıl kodlayabilirim?
Şu anda genomik için lojistik regresyon modeli üzerinde çalışıyorum. Ortak değişken olarak dahil etmek istediğim girdi alanlarından biri genes. Bilinen 24.000 civarında gen vardır. Hesaplamalı biyolojide bu değişkenlik düzeyine sahip birçok özellik vardır ve yüz binlerce örneğe ihtiyaç vardır. Eğer LabelEncoder()bu 24K genleri ve sonra OneHotEncoder()onlar ... 24.000 sütun keras …

3
En iyi çağrı süresini tahmin edin
Kaliforniya'nın farklı şehirlerinde bir dizi müşteri, her müşteri için arama zamanı ve çağrı durumunu içeren bir veri setim var (müşteri aramayı cevaplarsa Doğru ve müşteri cevap vermezse Yanlış). Gelecekteki müşterileri aramak için uygun bir zaman bulmalıyım ki aramayı cevaplama olasılığı yüksek. Peki, bu sorun için en iyi strateji nedir? Sınıfların …

3
Çevresel verilere dayalı mahsul verimlerini tahmin etmek için bir makine öğrenme modeli oluşturmak
10 yıldır (2005 - 2014) bir çiftlik için sıcaklık, yağış ve soya fasulyesi verimi hakkında veri içeren bir veri setim var. Bu verilere dayanarak 2015 yılı getirilerini tahmin etmek istiyorum. Veri kümesinin sıcaklık ve yağış için GÜNLÜK değerlere sahip olduğunu, ancak verim için yılda sadece 1 değere sahip olduğunu unutmayın, …

2
Scikit sınıflandırıcılarının sınıflandırılması ne kadar zaman alır?
1 milyon etiketli belgeden oluşan bir grupta metin sınıflandırması için scikit doğrusal destek vektör makinesi (SVM) sınıflandırıcısı kullanmayı planlıyorum. Ne yapmayı planlıyorum, bir kullanıcı bazı anahtar kelime girdiğinde, sınıflandırıcı ilk önce bir kategoride sınıflandıracak ve daha sonra bu kategori kategorisinin belgelerinde sonraki bilgi alma sorgusu gerçekleşecektir. Bir kaç sorum var: …

1
Çok sınıflı veri kümesinde yanlış sınıflandırmaya neden olan dengesiz veriler
39 kategori / sınıf ve 8.5 milyon kaydım olan metin sınıflandırması üzerinde çalışıyorum. (Gelecekte veri ve kategoriler artacaktır). Verilerimin yapısı veya biçimi aşağıdaki gibidir. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover …

4
Karar Ağacını özellik ithalatı bağlamında yorumlama
Sklearn ile oluşturulmuş bir karar ağacı sınıflandırma modelinin karar sürecini tam olarak nasıl anlamaya çalışıyorum. Baktığım 2 ana yön, ağacın bir grafik temsili temsili ve özellik ithalatları listesidir. Anlamadığım şey, özellik öneminin ağaç bağlamında nasıl belirlendiğidir. Örneğin, özellik ithalatlarımın listesi: Özellik sıralaması: 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC (0.092472) FeatureD …

3
Scikit-Learn'de Rastgele Orman Regresöründen ihracat ağırlıkları (formül)
Scytit Learn in Python (Random Forest Regressor) ile bir tahmin modeli geliştirdim ve manuel tahmin için bir excel aracı oluşturmak için her özelliğin ağırlıklarını bir şekilde çıkarmak istiyorum. Bulduğum tek şey, model.feature_importances_ama yardımcı olmuyor. Bunu başarmanın bir yolu var mı? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from …

1
Destek Vektör Makineleri için özellik seçimi
Sorum üç kat "Çekirdekleştirilmiş" destek vektör makineleri bağlamında Değişken / özellik seçimi istenir mi - özellikle aşırı sığmayı önlemek için C parametresini düzenli hale getirdiğimizden ve çekirdekleri bir SVM'ye sokmanın arkasındaki ana sebep sorunun boyutsallığını arttırmak olduğu için, bu durumda boyutları parametre küçültme ile azaltmak karşı sezgisel görünüyor İlk sorunun …

2
Boyutsal azalmanın tersine bir yöntem var mı?
Makine öğrenimi alanında yeniyim ancak sinyal işleme konusunda payımı aldım. Bu sorunun yanlış etiketlenmiş olup olmadığını lütfen bize bildirin. En az üç değişkenle tanımlanan iki boyutlu verilerim var, oldukça doğrusal olmayan model benzetmek için çok karmaşık. PCA ve ICA (python kütüphanesi Scikit-Learn) gibi yöntemleri kullanarak verilerden iki ana bileşeni ayıklamada …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.