Veri Bilimi scikit-learn

8

Scikit_learn modellerinde fit ile fit_transform arasındaki fark nedir?

Veri bilimine yeniyim fitve fit_transformscikit-learn'deki yöntemler ile yöntem arasındaki farkı anlamıyorum . Herhangi biri neden verileri dönüştürmemiz gerektiğini açıklayabilir mi? Eğitim verisine uydurma modeli ve test verisine dönüştürme ne demektir? Örneğin, kategorik değişkenleri trende sayılara dönüştürmek ve yeni özellik setini test verisine dönüştürmek anlamına mı geliyor?

110 python scikit-learn

3

One Hot Encoding vs LabelEncoder vs DictVectorizor ne zaman kullanılır?

Bir süredir kategorik verileri olan modeller yapıyorum ve bu durumda temel olarak bir model oluşturmadan önce bu verileri dönüştürmek için scikit-learn'ın LabelEncoder işlevini kullanıyorum. Ben arasındaki farkı anlamak OHE, LabelEncoderve DictVectorizoronlar verilere ne yaptığını açısından, ancak başka bir yere bir tekniği istihdam seçebilirsiniz zaman bana belli değil şeydir. Birinin diğerlerine …

95 scikit-learn categorical-data feature-engineering

11

Scikit öğrenme kullanarak SVM sonsuz çalışır ve yürütmeyi asla tamamlamaz

595605 satır ve 5 sütun (özellikler) içeren bir eğitim veri setinde scikit learn (python) ve 397070 satır içeren test veri setinde SVR kullanmaya çalışıyorum. Veriler önceden işlenmiş ve düzenlenmiştir. Test örneklerini başarılı bir şekilde çalıştırabilirim ancak veri setimi kullanarak çalıştırmaya başladım ve bir saatten fazla çalışmasına izin verdiğimde, programın herhangi …

76 python svm scikit-learn

6

karar ağacı / rastgele ormandaki özellikler olarak karakter dizileri

Karar ağacı / rastgele orman uygulamasında bazı problemler yaşıyorum. Sayı gibi karakter dizileri (ülke adı gibi) özellikli bir soruna uymaya çalışıyorum. Şimdi, kütüphane, scikit-learn sadece sayı olarak parametre alır, fakat önemli miktarda bilgi taşıdıkları gibi dizeleri de enjekte etmek istiyorum. Böyle bir senaryoyu nasıl idare ederim? Python'da karma gibi bazı …

64 machine-learning python scikit-learn random-forest decision-trees

9

Sklearn'de Tren / Test / Validasyon Seti

Sklearn ile bir veri matrisini ve ilgili etiket vektörünü rastgele bir X_train, X_test, X_val, y_train, y_test, y_val öğesine nasıl bölebilirim? Bildiğim kadarıyla sklearn.cross_validation.train_test_split, sadece ikiye bölme yeteneğine sahip, üçte değil ...

59 machine-learning scikit-learn

5

Scikit-learn'ın ileri seçimi / kademeli regresyon algoritması var mı?

Çok fazla özellik ile sorun üzerinde çalışıyorum ve modellerimin eğitimi çok uzun sürüyor. Özellikleri seçmek için ileri seçim algoritması kullandım. Ancak, scikit-learn'ın ileri seçim / kademeli regresyon algoritması olduğunu mu merak ediyordum?

37 feature-selection scikit-learn

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

MultiOutputClassifier'dan predict_proba'yı anlama

Bu örneği , Random Forest modeli ile çoklu işlem sınıflandırma yapmak için, scikit-learn web sitesinde takip ediyorum . from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) …

28 scikit-learn random-forest multilabel-classification

3

Lineer regresyonda ağırlıkları negatif olmaya zorlama

Python'da scikit-learn kullanarak standart bir doğrusal regresyon kullanıyorum. Bununla birlikte, ağırlıkları her özellik için negatif (negatif değil) tümüyle pozitif olmaya zorlamak istiyorum, bunu başarabilmemin bir yolu var mı? Belgelere bakıyordum ama bunu başarmanın bir yolunu bulamadım. Anladığım kadarıyla en iyi çözümü alamayabilirim, ancak ağırlıkların negatif olmamasına ihtiyacım var.

27 python scikit-learn linear-regression

4

Scikit-learn: Lojistik Regresyonun yanı sıra tahmin etmek için SGDClassifier'ı edinmek

Lojistik Regresyon'u eğitmenin bir yolu, scikit-learn'ın bir arayüz sunduğu stokastik degrade inişini kullanmaktır. Yapmak istediğim bir scikit- learn'ın SGDClassifier'ı almak ve burada Lojistik Regresyon ile aynı puanı almak . Ancak puanlarım eşit olmadığından bazı makine öğrenme geliştirmelerini kaçırmam gerekiyor. Bu benim şu anki kodum. Lojistik Regresyon ile aynı sonuçları vermesini …

24 python logistic-regression scikit-learn gradient-descent

5

Python'da KL Ayrışmasının Hesaplanması

Bunun için yeniyim ve bunun arkasındaki teorik kavramları tam olarak anladığımı söyleyemem. Python'daki birkaç nokta listesi arasındaki KL Diverjansını hesaplamaya çalışıyorum. Bunu denemek ve yapmak için http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html adresini kullanıyorum . Karşılaştığım sorun, döndürülen değerin 2 sayı listesi için aynı olması (bunun 1.3862943611198906). Burada bir çeşit teorik hata yapıyorum ama farkedemiyorum. …

22 python clustering scikit-learn

2

train_test_split () hatası: Tutarsız sayıda örnek içeren girdi değişkenleri bulundu

Python için oldukça yeni ama bazı sınıflandırma verilerine dayanarak ilk RF modelimi oluşturuyorum. Tüm etiketleri int64 sayısal verilere dönüştürdüm ve numpy dizi olarak X ve Y'ye yükledim, ancak modelleri eğitmeye çalıştığımda bir hataya çarpıyorum. Dizilerim şöyle görünüyor: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) …

21 python scikit-learn sampling

3

Verileri bölmeden önce ve sonra StandardScaler

Kullanırken hakkında okurken StandardScaler, önerilerin çoğu tren / teste veri bölmeden StandardScaler önce kullanmanız gerektiğini söylüyorlardı , ancak çevrimiçi (sklearn kullanarak) yayınlanan bazı kodları kontrol ederken iki büyük kullanım vardı. 1- StandardScalerTüm verilerin kullanılması. Örneğin from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std = X_fit.transform(X) Veya from …

20 machine-learning scikit-learn preprocessing

2

Sklearn ile LogisticRegression'da p değeri ve kendinden emin aralık nasıl alınır?

Sklearn (LogisticRegression) ile multinomiyal bir lojistik regresyon inşa ediyorum. Ancak bittikten sonra, modelimin p değerini ve kendinden emin bir aralığını nasıl alabilirim? Görünüşe göre sklearn sadece katsayı ve kesişme sağlıyor. Çok teşekkür ederim.

19 scikit-learn logistic-regression

2

Scikit-learn'da SVC ve LinearSVC arasındaki farkı açıklayabilir misiniz?

Son zamanlarda birlikte çalışmayı öğrenmeye başladım sklearnve bu tuhaf sonuca rastladım. Farklı modelleri ve tahmin yöntemlerini denemek için digitsmevcut veri kümesini kullandım sklearn. Veriler üzerinde bir Destek Vektör Makinesi modelini test ettiğimde sklearn, SVM sınıflandırması için iki farklı sınıf olduğunu öğrendim : SVCve LinearSVCbirincisi bire bir yaklaşım, diğeri ise bire …

19 svm scikit-learn

«scikit-learn» etiketlenmiş sorular