Bu soru kesin bir cevap alamayacak kadar açık uçlu olabilir, ama umarım değil.
SVM, GBM, Rastgele Orman vb. Gibi makine öğrenmesi algoritmaları, genellikle bazı rehberlik kurallarının ötesinde, her bir veri setine ayarlanması gereken bazı ücretsiz parametrelere sahiptir. Bu genellikle, en iyi genelleme hatasını veren parametre setine uyması için bir çeşit yeniden örnekleme tekniği (önyükleme, CV vb.) İle yapılır.
Sorum şu ki, burada fazla ileri gidebilir misin? İnsanlar şebeke aramaları yapmaktan bahsediyorlar, ama neden bunu sadece bir optimizasyon problemi olarak ele almıyor ve mümkün olan en iyi parametre setini incelemiyorlar? Bu soruda bunun mekaniğinden bahsettim ama fazla ilgi görmedi. Belki de soru kötü bir şekilde sorulmuştu, ama belki de sorunun kendisi genellikle insanların yapmadığı kötü bir yaklaşımı temsil ediyor?
Beni rahatsız eden şey düzenlileşmenin olmaması. Bu veri seti için bir GBM'de yetişecek en fazla ağaç sayısının 647 olduğunu ve etkileşim derinliği 4 olan 647 olduğunu, ancak bunun yeni veriler için geçerli olacağından nasıl emin olabilirim (yeni popülasyonu varsayarak) Eğitim seti ile aynı mı? 'Küçültmek' için makul bir değer olmadan (veya yapacaksanız, önceden bilgilendirici hiçbir bilgi yoksa) yeniden örnekleme yapabileceğimizin en iyisine benziyor. Sadece bununla ilgili bir konuşma duymuyorum, bu yüzden eksik olduğum bir şey olup olmadığını merak ediyorum.
Açıkça görülüyor ki, bir modele ait son tahminde bulunma gücünün her bitini sıkmak için birçok yinelemenin yapılmasıyla ilgili büyük bir hesaplama maliyeti vardır, bu yüzden açıkça optimizasyonu yapmak için her zaman / huyunuz varsa yapabileceğiniz bir şeydir. performans iyileştirme değerlidir.