«scikit-learn» etiketlenmiş sorular

Scikit-learn, makine öğrenimi, veri madenciliği ve veri analizi için basit ve etkili bir araçtan oluşan bir Python modülüdür. NumPy, SciPy ve matplotlib üzerine kurulmuştur. 3 Maddeli BSD lisansı altında dağıtılır.

1
Keras ile çok sınıflı sınıflandırmada dize etiketleri ile nasıl başa çıkılır?
Ben makine öğrenimi ve keras hakkında acemi ve şimdi keras kullanarak çok sınıflı bir görüntü sınıflandırma sorunu üzerinde çalışıyor. Giriş etiketli resimdir. Bazı ön işlemlerden sonra, eğitim verileri Python listesinde şu şekilde temsil edilir: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] "köpek", "kedi" ve "kuş" sınıf etiketleridir. Bir-sıcak kodlama bu sorun için …

4
Devasa veriler için python'da t-sne uygulama hızını artırın
Her biri 200 boyutlu ( doc2vec) olan yaklaşık 1 milyon vektörde boyutsal küçültme yapmak istiyorum . Bunun için modülden TSNEuygulama kullanıyorum sklearn.manifoldve asıl sorun zaman karmaşıklığı. Bununla birlikte method = barnes_hut, hesaplama hızı hala düşüktür. Bir süre Bellek yetersiz bile. 130G RAM ile 48 çekirdekli bir işlemcide çalıştırıyorum. Bunu paralel …

1
Metin kümeleme için algoritmalar
Çok sayıda cümleyi anlamlarına göre gruplara ayırma problemim var. Bu, çok sayıda cümleniz olduğunda ve anlamlarına göre gruplandırmak istediğinizde bir soruna benzer. Bunu yapmak için hangi algoritmalar öneriliyor? Önceden kümelerin sayısını bilmiyorum (ve daha fazla veri geliyor gibi kümeler de değişebilir), normalde her cümleyi temsil etmek için hangi özellikler kullanılır? …

5
deniz dibi ısı haritasını büyüt
corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Performansı artırmak için makine öğreniminde seyrek ve yoğun verileri birleştirme
Kestirimci olan seyrek özelliklerim var, ayrıca kestirimci olan bazı yoğun özelliklere de sahibim. Sınıflandırıcının genel performansını artırmak için bu özellikleri bir araya getirmem gerekiyor. Şimdi, bunları bir araya getirmeye çalıştığımda, yoğun özellikler seyrek özelliklere daha fazla hakim olma eğilimindedir, bu nedenle AUC'de sadece yoğun özelliklere sahip modele kıyasla sadece% 1 …

2
Eksik verilerle iş akışının neresinde ilgilenmeliyiz?
Çok büyük bir veritabanından (burada, SQL ve Vertica aracılığıyla Vertica) alınan verilerden makine öğrenme modelleri (benim durumumda, Python pandasve sklearnpaketleri kullanarak) oluşturmak için bir iş akışı oluşturuyorum pyodbcve bu süreçte kritik bir adım eksik öngörücülerin değerleri. Bu, tek bir analiz veya istatistik platformu içinde basittir - Python, R, Stata, vb. …

6
Birkaç sürekli değişkenin log dönüşümünü almanın arkasındaki sebep nedir?
Bir sınıflandırma problemi yapıyorum ve birçok insanın kodunu ve eğiticilerini okudum. Dikkatimizi çeken tek şey birçok kişi almasıdır np.logveya logsürekli benzeri değişken loan_amountveya applicant_incomevs. Sadece arkasındaki sebebi anlamak istiyorum. Model tahmin doğruluğunu artırmamıza yardımcı olur mu? Zorunlu mu? veya Arkasında mantık var mı? Lütfen mümkünse bazı açıklamalar sağlayın. Teşekkür ederim.

1
RandomForestClassifier OOB puanlama yöntemi
Scikit-learn'daki rastgele orman uygulaması, torba dışı örneklerle genelleme hatasını tahmin etmek için puanlama yöntemi olarak ortalama doğruluk kullanıyor mu? Belgelerde bu belirtilmemiştir, ancak score () yöntemi ortalama doğruluğu rapor eder. Dengesiz bir veri kümem var ve ızgara aramasında puanlama ölçütüm olarak AUC of ROC kullanıyorum. Sınıflandırıcıya OOB örnekleri üzerinde de …

5
Cümle benzerlik tahmini
Aşağıdaki sorunu çözmek istiyorum: Veri kümem olarak bir dizi cümleyim var ve yeni bir cümle yazabilmek ve yeni kümenin veri kümesindeki en çok benzediği cümleyi bulmak istiyorum. Bir örnek şöyle görünecektir: Yeni cümle: " I opened a new mailbox" Veri kümesine dayalı tahmin: Sentence | Similarity A dog ate poop …

2
SelectKBest nasıl çalışır?
Bu eğiticiye bakıyorum: https://www.dataquest.io/mission/75/improving-your-submission Bölüm 8'de en iyi özellikleri bularak aşağıdaki kodu gösterir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for …

3
Pandalar Veri Çerçevesi - DMatrix
Scikit öğrenmek xgboost çalıştırmak çalışıyorum. Ve ben sadece veri çerçevesine veri yüklemek için Pandalar kullanın. Nasıl xgboost ile pandalar df kullanmak gerekiyordu. Ben xgboost algo çalıştırmak için gerekli DMatrix rutin karıştı.

1
Regresyon için yüksek kardinalite kategorik özellikleri ile özellik önemi (sayısal bağımlı değişken)
Tüm özelliklerin kategorik olduğu ve birçoğunun (100-1000 sırasına göre) birçok seviyeye sahip olduğu bir regresyon problemi için bazı ampirik özellik seçimi yapmak için Rastgele Ormanlardan özellik ithalatlarını kullanmaya çalışıyordum. Bir sıcak kodlamanın her seviye için bir kukla değişken oluşturduğu düşünüldüğünde, özellik içe aktarımları her özellik için (sütun) değil her seviye …

3
Pandalar'daki toplu sütunları toplu dönüştürme (tek etkin kodlama değil)
Scikit-learn ile karar ağacında kullanmayı planladığım tonlarca kategorik sütun içeren panda veri çerçevem ​​var. Onları sayısal değerlere dönüştürmem gerekiyor (bir sıcak vektör değil). Scikit-learn'dan LabelEncoder ile yapabilirim. Sorun çok fazla olması ve bunları manuel olarak dönüştürmek istemiyorum. Bu süreci otomatikleştirmenin kolay bir yolu ne olurdu.

1
Scikit-learn ile rastgele ormanlarda özellik içe aktarımlarını kullanarak özellik seçimi
Ben var scikit-öğrenme ile rastgele ormanlarda özellik sahasını ABD'ye çizilen . Rastgele ormanları kullanarak tahmini iyileştirmek için, arsa bilgilerini özellikleri kaldırmak için nasıl kullanabilirim? Peki arsa bilgilerine dayanarak, bir özelliğin rasgele orman performansında işe yaramaz mı yoksa daha da kötü bir düşüş olup olmadığını nasıl anlayabilirim? Çizim özniteliğe dayanıyor feature_importances_ve …

1
Kaç LSTM hücresi kullanmalıyım?
Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.