«scikit-learn» etiketlenmiş sorular

Python için makine öğrenimi kütüphanesi. Bu etiketi, (a) sorgunun kritik bir parçası veya beklenen cevap olarak scikit-öğrenmeyi içeren herhangi bir konudaki soru için kullanın ve (b) sadece scikit-öğrenmenin nasıl kullanılacağı ile ilgili değildir.

2
Scikit-öğrenme önyükleme işlevi neden test kümesini yeniden örnekliyor?
Model değerlendirmesi için bootstrapping kullanırken, her zaman kullanıma hazır örneklerin doğrudan bir test seti olarak kullanıldığını düşündüm. Ancak, bunun için durum olmadığı görülüyor kaldırılan scikit-öğrenmeBootstrap dışı torba veri alt kümeden değiştirme ile çizim test kümesi oluşturmak gibi görünüyor yaklaşımı,. Bunun arkasındaki istatistiksel mantık nedir? Bu tekniğin sadece torba dışı örnek …

2
İç içe çapraz doğrulamanın kullanımı
Scikit Learn'ün Model Seçimi sayfasındaki iç içe çapraz doğrulamanın kullanıldığından bahsedilir: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) İki çapraz doğrulama döngüsü paralel olarak gerçekleştirilir: biri GridSearchCV tahmincisi tarafından gama ayarlamak için, diğeri cross_val_score tarafından tahmincinin tahmin performansını ölçmek için. Elde edilen puanlar, yeni verilerdeki tahmin …

2
Karar eşiği lojistik regresyonda hiperparametre midir?
(İkili) lojistik regresyondan tahmin edilen sınıflar, model tarafından oluşturulan sınıf üyelik olasılıkları üzerinde bir eşik kullanılarak belirlenir. Anladığım kadarıyla, varsayılan olarak 0,5 kullanılır. Ancak eşiği değiştirmek, öngörülen sınıflamaları değiştirecektir. Bu eşiğin bir hiperparametre olduğu anlamına mı geliyor? Öyleyse, (örneğin) scikit-learn'un GridSearchCVyöntemini (normalleştirme parametresi için yaptığınız gibi) kullanarak bir eşik ızgarasını …

2
KMEANS'taki k sayısını tahmin etmek için BIC kullanma
Şu anda oyuncak veri setim için BIC'yi hesaplamaya çalışıyorum (ofc iris (:). Sonuçları burada gösterildiği gibi çoğaltmak istiyorum (Şekil 5) Bu makale aynı zamanda BIC formülleri için kaynağım. Bu konuda 2 problemim var: Gösterim: ninin_i ben küme eleman = sayısıiii CiCiC_i i = küme merkez koordinatlarıiii xjxjx_j i = küme …

1
LogisticRegressionCV'de yakınsama nasıl düzeltilir?
Ben scikit-learn veri kümesi (> 7000 normalleştirilmiş gözlemler ile yaklaşık 14 parametre) ile çapraz validasyon ile lojistik regresyon gerçekleştirmek için kullanıyorum. Ayrıca 1 veya 0 değerine sahip bir hedef sınıflandırıcı var. Sahip olduğum sorun, kullanılan çözücüden bağımsız olarak, yakınsama uyarıları almaya devam etmem ... model1 = linear_model.LogisticRegressionCV(cv=10,verbose=1,n_jobs=-1,scoring='roc_auc',solver='newton-cg',penalty='l2') /home/b/anaconda/lib/python2.7/site-packages/scipy/optimize/linesearch.py:285: LineSearchWarning: The …

2
Hata dağılımı için Poisson, Gamma veya Tweedie dağılımlarını kullanarak Python / scikit-learn'daki GLM'yi değerlendirmek mümkün mü?
Bazı Python ve Sklearn öğrenmeye çalışıyorum, ancak çalışmalarım için Poisson, Gamma ve özellikle Tweedie ailelerinden hata dağılımlarını kullanan regresyonları çalıştırmam gerekiyor. Onlarla ilgili belgelerde hiçbir şey görmüyorum, ancak R dağıtımının çeşitli kısımlarındalar, bu yüzden herhangi birinin Python için herhangi bir yerde uygulama görüp görmediğini merak ediyordum. Beni Tweedie dağıtımının SGD …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
PCA ve TruncatedSVD'nin scikit-learn uygulamaları arasındaki fark
Temel Bileşen Analizi ile Tekil Değer Ayrışması arasındaki ilişkiyi cebirsel / tam düzeyde anlıyorum. Benim sorum scikit-learn uygulaması hakkında . Dokümantasyonda: " [TruncatedSVD] PCA'ya çok benzer, ancak her iki yaklaşım arasındaki cebirsel farkı yansıtan örnek vektörler üzerinde bir kovaryans matrisi yerine doğrudan çalışır. " Ancak, daha sonra şöyle der: " …
12 pca  scikit-learn  svd  scipy 

1
Scikit predict_proba çıktı yorumu
Python'da scikit-learn kütüphanesi ile çalışıyorum. Aşağıdaki kodda, olasılığı tahmin ediyorum, ancak çıktıyı nasıl okuyacağımı bilmiyorum. Verileri test etme from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Veri kümesini böl X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) Olasılığı hesapla clf = …


1
Çekirdek Yaklaşımı için Nystroem Yöntemi
Düşük seviyeli çekirdek yakınlaşması için Nyström yöntemini okudum. Bu yöntem scikit-learn [1] 'de veri örneklerini çekirdek özellik eşlemesinin düşük dereceli bir yaklaşımına yansıtmak için bir yöntem olarak uygulanır. Bildiğim kadarıyla, bir eğitim seti verilen ve bir çekirdek fonksiyonu, bu bir düşük seviye yaklaşımı oluşturur çekirdek matris için SVD uygulayarak ve …

1
Neden geniş bir K seçeneği çapraz doğrulama puanımı düşürüyor?
İle oynamak Boston Konut Verisetinin ve RandomForestRegressor(w / varsayılan parametreleri) Garip bir şey fark, scikit-öğrenme: ortalama çapraz doğrulama puanı azaldı My çapraz doğrulama stratejisi olarak oldu şu 10 öteye kıvrımları sayısını artırdı olarak: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... neredeydi num_cvs. Ben set test_sizeiçin 1/num_cvsk …

1
Scikit-learn Python ve R'de Glmnet'te Elastik Ağ arasındaki fark
Herkes aynı veri setinde ElasticNetPython ve R'de scikit-learn ile bir Elastik Ağ modelinin takılmasının glmnetaynı aritmetik sonuçlar üretip üretmediğini doğrulamaya çalıştı mı ? Parametrelerin birçok kombinasyonunu deniyorum (iki fonksiyon bağımsız değişkenlere geçtikleri varsayılan değerlerde farklılık gösterdiğinden) ve verileri ölçeklendiriyor, ancak hiçbir şey iki dil arasında aynı modeli üretiyor gibi görünüyor. …

2
R'nin glmnet'ini kullanan Ridge regresyonu ile Python'un scikit-learn'u arasındaki farklar nelerdir?
James, Witten, Hastie, Tibshirani (2013) tarafından 'R'de Uygulamalarla İstatistiksel Öğrenmeye Giriş' kitabında Ridge Regresyon / Kement ile ilgili LAB bölümü §6.6'dan geçiyorum . Daha spesifik olarak, scikit-öğrenim Ridgemodelini R paketinden 'ISLR' 'Hitters' veri kümesine uygulamaya çalışıyorum . R kodunda gösterildiği gibi aynı özellik kümesini oluşturdum. Ancak, glmnet()modelden elde edilen sonuçlara …

1
Chi kare testi ne tür özellik seçimi için kullanılabilir?
Burada başkalarının yaygın olarak denetimli öğrenmede özellik seçimi wrt sonucu için ki kare testi kullanmak için ne yaptıklarını soruyorum. Doğru anlarsam, her özellik ile sonuç arasındaki bağımsızlığı test eder ve her özellik için testler arasındaki p değerlerini karşılaştırırlar mı? In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Pearson ki-kare testi, setler arasında gözlemlenen herhangi bir …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.