Veri Bilimi xgboost

5

GBM ve XGBOOST arasındaki önemli farkları anlamaya çalışıyorum. Google'ı denedim, ancak iki algoritma arasındaki farkları ve xgboost'un neden hemen hemen her zaman GBM'den daha iyi performans gösterdiğini açıklayan iyi cevaplar bulamadım. XGBOOST'ı bu kadar hızlı yapan nedir?

39 machine-learning algorithms xgboost ensemble-modeling gbm

2

XGBoost öneminin çıktısını nasıl yorumlayabilirim?

Bir xgboost modeli koştum. Çıktısını nasıl yorumlayacağımı tam olarak bilmiyorum xgb.importance. Kazanç, Kapak ve Frekansın anlamı nedir ve bunları nasıl yorumluyoruz? Ayrıca, Split, RealCover ve RealCover% ne anlama geliyor? Burada bazı ekstra parametrelerim var Özellik ithalatı hakkında daha fazla bilgi verebilecek başka parametreler var mı? R belgelerine göre, Kazanç'ın Bilgi …

36 machine-learning xgboost

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Hypertuning XGBoost parametreleri

XGBoost, hem kategorik hem de sürekli bağımlı değişkenlerle uğraşmak konusunda mükemmel bir iş çıkarıyor. Ancak, bir XGBoost problemi için optimize edilmiş parametreleri nasıl seçerim? Son Kaggle problemi için parametreleri şöyle uyguladım: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed …

27 r python xgboost

2

LightGBM vs XGBoost

Hangisinin daha iyi olduğunu anlamaya çalışıyorum (özellikle sınıflandırma problemlerinde daha doğru) LightGBM ve XGBoost'u karşılaştıran makaleler araştırıyordum, ancak yalnızca iki tane buldum: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - sadece hız ile ilgili ancak doğrulukla ilgili değil. https://github.com/Microsoft/LightGBM/wiki/Experiments - ki bunlar LightGBM'in yazarlarından ve sürpriz olmayan LightGBM orada kazanıyor. Testlerimde her iki algoritmada da aynı …

25 xgboost

3

Neden XGBoost ve Random Forest'a ihtiyacımız var?

Birkaç kavram konusunda net değildim: XGBoost, zayıf öğrencileri güçlü öğrencilere dönüştürür. Bunu yapmanın avantajı nedir? Tek bir ağacı kullanmak yerine birçok zayıf öğrenciyi birleştirmek mi? Rastgele Orman bir ağaç oluşturmak için ağaçtan çeşitli örnekler kullanır. Sadece tekil bir ağaç kullanmak yerine bu yöntemin avantajı nedir?

25 machine-learning data-mining random-forest decision-trees xgboost

4

XGBoost çoklu bağlantıyı tek başına ele alıyor mu?

Şu anda XGBoost'u 21 özellikli bir veri setinde kullanıyorum (yaklaşık 150 özellik listesinden seçildi), sonra ~ 98 özellik elde etmek için bir sıcak kodlu. Bu 98 özellikten birkaçı biraz fazladır, örneğin: değişken (özellik) da B olarak görünürbirbirA veCBbirBbir\frac{B}{A} .CbirCbir\frac{C}{A} Sorularım: Nasıl ( varsa? ) Karar Ağaçları kolu çoklu doğrusal Boosted …

23 feature-selection correlation xgboost gbm

3

xgboost: son örneklere daha fazla önem verin

Xgboost ile verileri analiz ederken daha yeni olan noktalara daha fazla önem vermenin bir yolu var mı?

22 xgboost weighted-data

4

XGBoost ile dengesiz çoklu sınıf verileri

Bu dağıtım ile 3 sınıf var: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 Ve xgboostsınıflandırma için kullanıyorum . Adında bir parametre olduğunu biliyorum scale_pos_weight. Ancak 'çok sınıflı' dava için nasıl ele alınır ve nasıl düzgün bir şekilde ayarlayabilirim?

21 classification xgboost multiclass-classification unbalanced-classes

1

Karar ağaçları: yaprak bilge (en iyisi ilk) ve seviye bilge ağacı geçişi

Sorun 1: Ağacın genişleme şekliyle ilgili LightGBM tanımıyla kafam karıştı . Belirtiyorlar: Karar ağacı öğrenme algoritmalarının çoğu, aşağıdaki görüntüde olduğu gibi, seviye (derinlik) yönde büyür: Sorular 1 : Hangi "en" algoritmalar bu şekilde uygulanır? Bildiğim kadarıyla C4.5 ve CART DFS kullanıyor. XGBoost BFS kullanır. Hangi diğer algoritmalar veya paketler karar …

14 decision-trees xgboost

2

XgBoost'ta ikili sıralama modellerine nasıl uyulur?

Bildiğim kadarıyla, modelleri sıralamak için öğrenmeyi eğitmek için veri kümesinde üç şeye sahip olmanız gerekir: etiket veya alaka düzeyi grup veya sorgu kimliği özellik vektörü Örneğin, Microsoft Öğrenme Sıralaması veri kümesi bu biçimi (etiket, grup kimliği ve özellikler) kullanır. 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Ben …

14 search ranking xgboost gbm

3

Pandalar Veri Çerçevesi - DMatrix

Scikit öğrenmek xgboost çalıştırmak çalışıyorum. Ve ben sadece veri çerçevesine veri yüklemek için Pandalar kullanın. Nasıl xgboost ile pandalar df kullanmak gerekiyordu. Ben xgboost algo çalıştırmak için gerekli DMatrix rutin karıştı.

14 scikit-learn pandas xgboost

1

XGBRegressor vs.Xgboost.Güzel hız farkı mı?

Modelimi aşağıdaki kodu kullanarak eğitirsem: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) yaklaşık 1 dakika içinde biter. Modelimi Sci-Kit öğrenme yöntemini kullanarak eğitirsem: import xgboost as xg max_depth …

13 machine-learning python decision-trees xgboost efficiency

1

Regresyon için yüksek kardinalite kategorik özellikleri ile özellik önemi (sayısal bağımlı değişken)

Tüm özelliklerin kategorik olduğu ve birçoğunun (100-1000 sırasına göre) birçok seviyeye sahip olduğu bir regresyon problemi için bazı ampirik özellik seçimi yapmak için Rastgele Ormanlardan özellik ithalatlarını kullanmaya çalışıyordum. Bir sıcak kodlamanın her seviye için bir kukla değişken oluşturduğu düşünüldüğünde, özellik içe aktarımları her özellik için (sütun) değil her seviye …

12 scikit-learn feature-selection random-forest xgboost categorical-data

3

Xgboost'un yaklaşık bölünmüş puan teklifini anlamak için yardıma ihtiyacınız var

arka fon: içinde xgboost yineleme denemeden bir ağaç sığacak şekilde f t baştan n objektif aşağıdaki minimize örnekler:tttftftf_tnnn Σi = 1n[ gbenft( xben) + 12hbenf2t( xben) ]Σben=1n[gbenft(xben)+12hbenft2(xben)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] burada birinci derece ve önceki iyi tahmini üzerinde ikinci derece türevleridir y (yineleme gelen t - 1 ):gben, sbengben,hbeng_i, h_iy^y^\hat{y}t - …

12 xgboost gbm

«xgboost» etiketlenmiş sorular