İstatistikler ve Büyük Veri scikit-learn

1

Çapraz doğrulama, öğrenme eğrisi ve son değerlendirme için veri setinin nasıl bölüneceği?

Veri kümesini bölmek için uygun bir strateji nedir? Ben şu yaklaşıma ilgili görüşlerinizi (değil gibi bireysel parametrelere test_sizeveya n_iterama kullanılırsa X, y, X_train, y_train, X_test, ve y_testuygun bir şekilde ve sıra mantıklı ise): ( bu örneği scikit-learn belgelerinden uzatarak) 1. Veri kümesini yükleyin from sklearn.datasets import load_digits digits = load_digits() …

70 machine-learning cross-validation python scikit-learn

1

Scikit-learn'da bir kodlu vs kukla kodlama

Kategorik değişkenleri kodlamanın iki farklı yolu vardır. Diyelim ki bir kategorik değişken n değerine sahiptir. Tek sıcak kodlama onu n değişkenine, kukla kodlama onu n-1 değişkenine dönüştürür . Eğer her birinin n değeri olan k kategorik değişkenleri varsa . Bir sıcak kodlama kn değişkenleriyle sona ererken , yapay kodlama kn-k …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

5

SVM özellik ağırlıkları nasıl yorumlanır?

Doğrusal bir SVM yerleştirerek verilen değişken ağırlıkları yorumlamaya çalışıyorum. (Ben scikit-learn kullanıyorum ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Belgelerde, bu ağırlıkların nasıl hesaplandığını veya yorumlandığını gösteren hiçbir şey bulamıyorum. Kilo işaretinin dersle ilgisi var mı?

42 svm feature-selection python scikit-learn

2

Pandalar / Statsmodel / Scikit-öğren

Pandalar, Statsmodels ve Scikit-makine öğrenmesi / istatistiksel işlemlerin farklı uygulamalarını mı öğreniyorlar ya da bunlar birbirlerini tamamlayıcı mı? Bunlardan hangisi en kapsamlı işlevselliğe sahiptir? Hangisi aktif olarak geliştirilir ve / veya desteklenir? Lojistik regresyon uygulamak zorundayım. Bunlardan hangisine kullanmam gerektiği konusunda herhangi bir öneriniz var mı?

41 machine-learning python scikit-learn statsmodels pandas

2

Lojistik Regresyon: Scikit Learn - Statsmodels'i öğrenin

Bu iki kütüphanenin lojistik regresyonundan elde edilen çıkışın neden farklı sonuçlar verdiğini anlamaya çalışıyorum. Veri setini UCLA idre öğreticisinden kullanıyorum , ve admitdayanarak tahmin ediyorum . kategorik değişken olarak kabul edilir, bu nedenle ilk önce bırakılan kukla değişkene dönüştürülür . Bir engelleme sütunu da eklenir.gregparankrankrank_1 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X …

31 regression logistic python scikit-learn statsmodels

3

Scikit-learn kullanarak polinom regresyon

Scikit-learn'ı polinom regresyonu için kullanmaya çalışıyorum. Okuduğum kadarıyla polinom regresyonu özel bir lineer regresyon vakasıdır. Belki de bir scikit'in genelleştirilmiş doğrusal modellerinden birinin daha yüksek dereceli polinomlara uyması için parametreleştirilebileceğini ümit ediyordum ama bunun için bir seçenek göremiyorum. Poli çekirdekli bir Support Vector Regressor kullanmayı başardım. Bu, verilerimin bir alt …

29 regression machine-learning large-data polynomial scikit-learn

1

sklearn'in sınıflandırma raporundaki rakamlar ne anlama geliyor?

Ben sklearn 's sklearn.metrics.classification_report belgelerine çektiğim bir örnek aşağıda. Anlamadığım şey, sınıfın yordayıcı etiket olduğuna inandığım her sınıf için neden f1 puan, kesinlik ve hatırlama değerleri olduğudur? F1 skorunun modelin genel doğruluğunu söylediğini sanıyordum. Ayrıca, destek sütunu bize ne anlatıyor? Bununla ilgili hiçbir bilgi bulamadım. print(classification_report(y_true, y_pred, target_names=target_names)) precision recall …

29 machine-learning python scikit-learn precision-recall

1

Serbestlik dereceleri tam sayı olmayan bir sayı olabilir mi?

GAM kullandığımda, artık DF (kodun son satırı) olduğunu gösteriyor. Bu ne anlama geliyor? GAM örneğinin ötesine geçmek, Genel olarak, serbestlik derecelerinin sayısı tam sayı olmayan bir sayı olabilir mi?26,626,626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Hassas Geri Çağırma Eğrisi (PR eğrisinin AUC'si) ve Ortalama Hassasiyet (AP) altındaki alan

Ortalama Hassasiyet (AP), Hassas Geri Çağırma Eğrisi altındaki Alan mı (PR eğrisi AUC'si)? DÜZENLE: PR AUC ve AP'deki farklılıklar hakkında bazı yorumlar. AUC, hassasiyetin yamuk enterpolasyonuyla elde edilir. Alternatif ve genellikle neredeyse eşdeğer bir ölçü, info.ap olarak döndürülen Ortalama Kesinliktir (AP). Bu, yeni bir pozitif örnek her çağrıldığında elde edilen …

27 scikit-learn precision-recall auc average-precision

4

Scikit-learn (veya başka herhangi bir python çerçevesini) kullanarak farklı tipte regresörlerin topluluğu

Regresyon görevini çözmeye çalışıyorum. 3 modelin farklı veri alt kümeleri için iyi çalıştığını öğrendim: LassoLARS, SVR ve Gradient Tree Boostting. Tüm bu 3 modeli kullanarak tahminlerde bulunduğumda ve sonra 'gerçek çıktı' tablosu yaptığımda ve 3 modelimin çıktılarını gördüğümde, modellerin en az birinin gerçekten gerçek çıktıya yakın olduğunu gördüm, ancak diğer …

27 regression scikit-learn ensemble

2

Python'un bilim-kurgu LDA'sı neden doğru çalışmıyor ve LDA'yı SVD üzerinden nasıl hesaplıyor?

scikit-learnMakine öğrenim kütüphanesinden (Python) Doğrusal Ayrımcılık Analizi'ni (LDA) boyutsallığın azaltılması için kullanıyordum ve sonuçları biraz merak ediyordum. Şimdi, LDA'nın ne scikit-learnyaptığını merak ediyorum , böylece sonuçlar R'de yapılan bir manuel yaklaşımdan veya LDA'dan farklı görünecek şekilde farklı görünebilir. Biri bana burada bazı bilgiler verebilirse harika olur. Temel olarak en çok …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

2

Scikit-learn'deki ortalama mutlak yüzde hatası (MAPE) [kapalı]

Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 2 yıl önce kapandı . Python ve scikit-learn kullanarak tahminlerimizin Ortalama mutlak yüzde hatasını (MAPE) nasıl hesaplayabiliriz? Gönderen dokümanlar , biz bağlanımlar için sadece bu …

24 predictive-models python scikit-learn mape

5

Takma: Gümüş mermi yok mu?

Anladığım kadarıyla, uygun çapraz doğrulama ve model seçim prosedürlerini takip ederken bile , model karmaşıklığı üzerine bir kısıtlama getirmediği sürece, bir modeli yeterince zor arayacaksa , fazladan takma gerçekleşecek . Dahası, çoğu kez insanlar, sağlayabilecekleri korumayı baltalayan verilerden model karmaşıklığı ile ilgili cezaları öğrenmeye çalışırlar. Sorum şu: Yukarıdaki açıklamaya ne …

21 machine-learning cross-validation goodness-of-fit scikit-learn caret

2

NumA ve sklearn'te PCA farklı sonuçlar üretir

Bir şeyi yanlış mı anlıyorum. Bu benim kodum sklearn kullanma import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) Çıktı: array([[ -4.25324997e+03, …

21 pca python scikit-learn

2

Scikit-learn'un çoklu etiket sınıflandırıcılarında çapraz doğrulama işlevlerini kullanma

Ben 5 sınıf vardır ve her örnek bu sınıflardan biri veya daha fazla olabilir bir veri kümesi üzerinde farklı sınıflandırıcılar test ediyorum, bu yüzden özellikle scikit-learn çok etiketli sınıflandırıcılar kullanıyorum sklearn.multiclass.OneVsRestClassifier. Şimdi kullanarak çapraz doğrulama yapmak istiyorum sklearn.cross_validation.StratifiedKFold. Bu, aşağıdaki hatayı üretir: Traceback (most recent call last): File "mlfromcsv.py", line …

20 cross-validation python multi-class scikit-learn multilabel

«scikit-learn» etiketlenmiş sorular