Ben scikits-learn Rastgele Orman Regresyonu kullanmaya çalışıyorum. Sorun gerçekten yüksek bir test hatası alıyorum:
train MSE, 4.64, test MSE: 252.25.
Verilerim şöyle görünüyor: (mavi: gerçek veriler, yeşil: tahmin edilen):
Eğitim için% 90, test için% 10 kullanıyorum. Bu, birkaç parametre kombinasyonunu denedikten sonra kullandığım kod:
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
Donanımımı geliştirmek için olası stratejiler nelerdir? Altta yatan modeli çıkarmak için yapabileceğim başka bir şey var mı? Aynı modelin birçok tekrarından sonra modelin yeni verilerle çok kötü davrandığı bana inanılmaz geliyor. Bu verilere uymaya çalışmak konusunda hiç umudum var mı?