Ben ~ 400k kayıtları ve 9 değişkenli bir veri seti analiz ediyorum Bağımlı değişken ikili. Bir lojistik regresyon, bir regresyon ağacı, rastgele bir orman ve gradyan artırılmış bir ağaç taktım. Hepsi, başka bir veri kümesinde doğruladığımda sanal olarak aynı uyum iyiliği değerini verir.
Neden böyle? Değişken oranlara ilişkin gözlemlerimin çok yüksek olması nedeniyle tahmin ediyorum. Bu doğruysa, hangi modeller hangi gözlem / değişken oranlarında farklı modeller farklı sonuçlar vermeye başlayacaktır?