«scikit-learn» etiketlenmiş sorular

Python için makine öğrenimi kütüphanesi. Bu etiketi, (a) sorgunun kritik bir parçası veya beklenen cevap olarak scikit-öğrenmeyi içeren herhangi bir konudaki soru için kullanın ve (b) sadece scikit-öğrenmenin nasıl kullanılacağı ile ilgili değildir.

3
XGBoost vs Python Sklearn eğimli güçlendirilmiş ağaçlar
XGBoost'un nasıl çalıştığını anlamaya çalışıyorum. Degrade artırılmış ağaçların Python sklearn'de nasıl çalıştığını zaten anlıyorum. Benim için net olmayan şey, XGBoost'un aynı şekilde, ancak daha hızlı çalışması veya python uygulaması arasında temel farklılıklar olup olmadığıdır. Bu makaleyi okuduğumda http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Bana öyle geliyor ki XGboost'tan çıkan sonuç Python uygulamasında olduğu gibi, ancak …

2
Scikit'te çok etiketli sınıflandırma metrikleri
Scikit kullanarak mevcut belgelere konu atamak için çok etiketli bir sınıflandırıcı oluşturmaya çalışıyorum Belgelerimi TfidfVectorizeretiketlerden geçirerek işliyorum ve tahmincisi olarak MultiLabelBinarizera OneVsRestClassifierile oluşturdum SGDClassifier. Ancak sınıflandırıcımı test ederken, sadece okuduğumdan benzer problemler için oldukça düşük olan .29'a kadar puan alıyorum. TfidfVectorizer üzerinde stopwords, unigrams, stemming gibi çok sayıda seçenek denedim …

2
Rastgele orman aşırı uyuyor mu?
Scikit-learn ile rastgele ormanları deniyorum ve eğitim setimin harika sonuçlarını alıyorum, ancak test setimde nispeten zayıf sonuçlar elde ediyorum ... İşte çözmeye çalıştığım problem (pokerden esinlenerek): Oyuncu A'nın delik kartları, oyuncu B'nin delik kartları ve bir flop (3 kart) verildi, hangi oyuncu en iyi ele sahip? Matematiksel olarak, bu 14 …

3
Lojistik regresyon katsayılarının standart hatalarını hesaplama
Lojistik regresyonu eğitmek ve test etmek için Python'un scikit-learn'u kullanıyorum. scikit-learn, regresyonun bağımsız değişkenlerin katsayılarını döndürür, ancak katsayıların standart hatalarını sağlamaz. Her katsayı için Wald istatistiği hesaplamak ve bu katsayıları birbirleriyle karşılaştırmak için bu standart hatalara ihtiyacım var. Bir lojistik regresyon katsayıları için standart hataların nasıl hesaplanacağına dair bir açıklama …

3
Python'daki collinear değişkenleri sistematik olarak nasıl kaldırırım? [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu , Çapraz Doğrulanmış için konuyla ilgili olacak şekilde güncelleyin . 2 yıl önce kapalı . Şimdiye kadar, korelasyon tablolarına bakarak ve belirli bir eşiğin üzerindeki değişkenleri kaldırarak veri hazırlama sürecinin bir parçası olarak …

3
Neden basit en küçük kareler katsayılarını bulmak için “normal denklemleri” kullanmıyorsunuz?
Bu listeyi burada gördüm ve en küçük kareleri çözmenin birçok yolu olduğuna inanamadım. Wikipedia'daki "normal denklemler" oldukça basit bir yol gibi görünüyordu: α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Öyleyse neden sadece onları kullanmıyorsunuz? Mark L'nin ilk bağlantısında SVD veya …

3
İç içe çapraz doğrulamada hiper parametreler nasıl alınır?
İç içe çapraz doğrulama için aşağıdaki mesajları okudum ve hala iç içe çapraz doğrulama ile model seçimi ile ne yapacağım% 100 emin değilim: Model seçimi için iç içe çapraz doğrulama Model seçimi ve çapraz doğrulama: Doğru yol Karışıklığımı açıklamak için, adım adım iç içe çapraz doğrulama yöntemiyle model seçiminden geçmeye …


6
En hızlı SVM uygulaması
Genel bir soru daha. Tahmini modelleme için bir rbf SVM kullanıyorum. Mevcut programımın kesinlikle biraz hızlanması gerektiğini düşünüyorum. Scikit öğrenmeyi kaba-ince arama + çapraz doğrulamayla kullanıyorum. Her SVM çalışması yaklaşık bir dakika sürer, ancak tüm iterasyonlarla, hala çok yavaş buluyorum. Sonunda çapraz doğrulama parçasını çoklu çekirdekler üzerinde çoklu olarak işlediğimi …

2
CalibratedClassifierCV ile sınıflandırıcıları kalibre etmenin doğru yolu
Scikit, modellerimizi belirli bir X, y çiftinde kalibre etmemizi sağlayan CalibratedClassifierCV'ye sahiptir . Ayrıca açıkça belirtiyor kidata for fitting the classifier and for calibrating it must be disjoint. Ayrılmaları gerekiyorsa, sınıflandırıcıyı aşağıdakilerle eğitmek meşru mudur? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Aynı eğitim setini kullanarak disjoint datakuralı ihlal ettiğimden korkuyorum . …

3
İstatistiksel OLS ve scikit doğrusal regresyon arasındaki fark
Aynı işi yapan farklı kütüphanelerden iki farklı yöntem hakkında bir sorum var. Doğrusal regresyon modeli yapmaya çalışıyorum. OLS ile istatistik modeli kitaplığını kullandığım kod: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", …

2
“F regresyonuna” ve değerlerine dayalı özellik seçimi arasındaki fark nedir?
Özelliklerin F-regressionetiketle ilişkilendirilmesi ile aynı özellikleri kullanarak karşılaştırmak ve değerini gözlemlemek mi?R2R2R^2 Sık sık meslektaşlarımın F regressionmakine öğrenme kanalında bir özellik seçimi için kullandığını gördüm sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Bazıları bana söyle - neden sadece etiket / bağımlı değişkenle ilişkilendirmekle aynı sonuçları veriyor? F_regressionÖzellik seçiminde kullanmanın avantajı bana açık değil . İşte …

7
Rastgele orman aşırı uyuyor
Ben scikits-learn Rastgele Orman Regresyonu kullanmaya çalışıyorum. Sorun gerçekten yüksek bir test hatası alıyorum: train MSE, 4.64, test MSE: 252.25. Verilerim şöyle görünüyor: (mavi: gerçek veriler, yeşil: tahmin edilen): Eğitim için% 90, test için% 10 kullanıyorum. Bu, birkaç parametre kombinasyonunu denedikten sonra kullandığım kod: rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, …

3
Lojistik Regresyon: Scikit Learn vs glmnet
R'deki paketi sklearnkullanarak lojistik regresyon kütüphanesinden sonuçları çoğaltmaya çalışıyorum.glmnet Kaynaktan sklearnlojistik regresyon belgeleri , bu l2 cezası altında maliyet fonksiyonunu en çalışıyor minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Kaynaktan vignettes arasında glmnet, uygulanması biraz daha farklı bir maliyet fonksiyonu minimize minβ,β0−[1N∑i=1Nyi(β0+xTiβ)−log(1+e(β0+xTiβ))]+λ[(α−1)||β||22/2+α||β||1]minβ,β0−[1N∑i=1Nyi(β0+xiTβ)−log⁡(1+e(β0+xiTβ))]+λ[(α−1)||β||22/2+α||β||1]\min_{\beta, \beta_0} -\left[\frac1N \sum_{i=1}^N y_i(\beta_0+x_i^T\beta)-\log(1+e^{(\beta_0+x_i^T\beta)})\right] + \lambda[(\alpha-1)||\beta||_2^2/2+\alpha||\beta||_1] İkinci …

3
Makine öğreniminde veri eksikliği problemini çözme yöntemleri
Makine öğrenme algoritmalarını kullanarak tahminlerde bulunmak istediğimiz herhangi bir veritabanı, bazı özellikler için eksik değerler bulacaktır. Bu sorunu ele almak, eksik değerlere sahip satırları karakteristiklerin ortalama değerleriyle dolana kadar hariç tutmak için birkaç yaklaşım vardır. Temelde bağımlı değişken (Y) eksik değerleri olan sütunların her biri ancak tablonun satırları ile olacak …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.