«scikit-learn» etiketlenmiş sorular

8
Scikit_learn modellerinde fit ile fit_transform arasındaki fark nedir?
Veri bilimine yeniyim fitve fit_transformscikit-learn'deki yöntemler ile yöntem arasındaki farkı anlamıyorum . Herhangi biri neden verileri dönüştürmemiz gerektiğini açıklayabilir mi? Eğitim verisine uydurma modeli ve test verisine dönüştürme ne demektir? Örneğin, kategorik değişkenleri trende sayılara dönüştürmek ve yeni özellik setini test verisine dönüştürmek anlamına mı geliyor?

3
One Hot Encoding vs LabelEncoder vs DictVectorizor ne zaman kullanılır?
Bir süredir kategorik verileri olan modeller yapıyorum ve bu durumda temel olarak bir model oluşturmadan önce bu verileri dönüştürmek için scikit-learn'ın LabelEncoder işlevini kullanıyorum. Ben arasındaki farkı anlamak OHE, LabelEncoderve DictVectorizoronlar verilere ne yaptığını açısından, ancak başka bir yere bir tekniği istihdam seçebilirsiniz zaman bana belli değil şeydir. Birinin diğerlerine ...

11
Scikit öğrenme kullanarak SVM sonsuz çalışır ve yürütmeyi asla tamamlamaz
595605 satır ve 5 sütun (özellikler) içeren bir eğitim veri setinde scikit learn (python) ve 397070 satır içeren test veri setinde SVR kullanmaya çalışıyorum. Veriler önceden işlenmiş ve düzenlenmiştir. Test örneklerini başarılı bir şekilde çalıştırabilirim ancak veri setimi kullanarak çalıştırmaya başladım ve bir saatten fazla çalışmasına izin verdiğimde, programın herhangi ...

6
karar ağacı / rastgele ormandaki özellikler olarak karakter dizileri
Karar ağacı / rastgele orman uygulamasında bazı problemler yaşıyorum. Sayı gibi karakter dizileri (ülke adı gibi) özellikli bir soruna uymaya çalışıyorum. Şimdi, kütüphane, scikit-learn sadece sayı olarak parametre alır, fakat önemli miktarda bilgi taşıdıkları gibi dizeleri de enjekte etmek istiyorum. Böyle bir senaryoyu nasıl idare ederim? Python'da karma gibi bazı ...

9
Sklearn'de Tren / Test / Validasyon Seti
Sklearn ile bir veri matrisini ve ilgili etiket vektörünü rastgele bir X_train, X_test, X_val, y_train, y_test, y_val öğesine nasıl bölebilirim? Bildiğim kadarıyla sklearn.cross_validation.train_test_split, sadece ikiye bölme yeteneğine sahip, üçte değil ...


1
Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?
100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. ...
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
MultiOutputClassifier'dan predict_proba'yı anlama
Bu örneği , Random Forest modeli ile çoklu işlem sınıflandırma yapmak için, scikit-learn web sitesinde takip ediyorum . from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) ...

3
Lineer regresyonda ağırlıkları negatif olmaya zorlama
Python'da scikit-learn kullanarak standart bir doğrusal regresyon kullanıyorum. Bununla birlikte, ağırlıkları her özellik için negatif (negatif değil) tümüyle pozitif olmaya zorlamak istiyorum, bunu başarabilmemin bir yolu var mı? Belgelere bakıyordum ama bunu başarmanın bir yolunu bulamadım. Anladığım kadarıyla en iyi çözümü alamayabilirim, ancak ağırlıkların negatif olmamasına ihtiyacım var.

4
Scikit-learn: Lojistik Regresyonun yanı sıra tahmin etmek için SGDClassifier'ı edinmek
Lojistik Regresyon'u eğitmenin bir yolu, scikit-learn'ın bir arayüz sunduğu stokastik degrade inişini kullanmaktır. Yapmak istediğim bir scikit- learn'ın SGDClassifier'ı almak ve burada Lojistik Regresyon ile aynı puanı almak . Ancak puanlarım eşit olmadığından bazı makine öğrenme geliştirmelerini kaçırmam gerekiyor. Bu benim şu anki kodum. Lojistik Regresyon ile aynı sonuçları vermesini ...

5
Python'da KL Ayrışmasının Hesaplanması
Bunun için yeniyim ve bunun arkasındaki teorik kavramları tam olarak anladığımı söyleyemem. Python'daki birkaç nokta listesi arasındaki KL Diverjansını hesaplamaya çalışıyorum. Bunu denemek ve yapmak için http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html adresini kullanıyorum . Karşılaştığım sorun, döndürülen değerin 2 sayı listesi için aynı olması (bunun 1.3862943611198906). Burada bir çeşit teorik hata yapıyorum ama farkedemiyorum. ...

2
train_test_split () hatası: Tutarsız sayıda örnek içeren girdi değişkenleri bulundu
Python için oldukça yeni ama bazı sınıflandırma verilerine dayanarak ilk RF modelimi oluşturuyorum. Tüm etiketleri int64 sayısal verilere dönüştürdüm ve numpy dizi olarak X ve Y'ye yükledim, ancak modelleri eğitmeye çalıştığımda bir hataya çarpıyorum. Dizilerim şöyle görünüyor: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) ...

3
Verileri bölmeden önce ve sonra StandardScaler
Kullanırken hakkında okurken StandardScaler, önerilerin çoğu tren / teste veri bölmeden StandardScaler önce kullanmanız gerektiğini söylüyorlardı , ancak çevrimiçi (sklearn kullanarak) yayınlanan bazı kodları kontrol ederken iki büyük kullanım vardı. 1- StandardScalerTüm verilerin kullanılması. Örneğin from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) Veya from ...


2
Scikit-learn'da SVC ve LinearSVC arasındaki farkı açıklayabilir misiniz?
Son zamanlarda birlikte çalışmayı öğrenmeye başladım sklearnve bu tuhaf sonuca rastladım. Farklı modelleri ve tahmin yöntemlerini denemek için digitsmevcut veri kümesini kullandım sklearn. Veriler üzerinde bir Destek Vektör Makinesi modelini test ettiğimde sklearn, SVM sınıflandırması için iki farklı sınıf olduğunu öğrendim : SVCve LinearSVCbirincisi bire bir yaklaşım, diğeri ise bire ...
19 svm  scikit-learn 

Licensed under cc by-sa 3.0 with attribution required.