Sınıflandırma ve regresyon için tahmine dayalı modeller oluşturmak için R'deki şapka paketini kullanıyorum . Caret, çapraz doğrulama veya önyükleme kayışı yoluyla model hiper parametrelerini ayarlamak için birleştirilmiş bir arayüz sağlar. Örneğin, sınıflandırma için basit bir 'en yakın komşular' modeli oluşturuyorsanız, kaç tane komşu kullanmalısınız? 2? 10? 100? Caret, verilerinizi yeniden örnekleyerek, farklı parametreler deneyerek ve hangisinin en iyi tahmine dayalı doğruluğu sağladığına karar vermek için sonuçları bir araya getirerek bu soruyu cevaplamanıza yardımcı olur.
Bu yaklaşımı seviyorum, çünkü model hiper parametrelerini seçmek için sağlam bir metodoloji sunuyor ve son hiper parametrelerini seçtikten sonra, sınıflandırma modelleri için doğruluğu kullanarak modelin ne kadar iyi olduğunu belirten çapraz onaylanmış bir tahmin sunuyor ve regresyon modelleri için RMSE.
Şimdi, muhtemelen rastgele bir orman kullanarak, bir regresyon modeli oluşturmak istediğim bazı zaman serisi verilerim var. Verilerimin doğası göz önüne alındığında modelimin öngörücü doğruluğunu değerlendirmek için iyi bir teknik nedir? Eğer rastgele ormanlar zaman serisi verisine gerçekten uygulanmazsa, zaman serisi analizi için doğru bir topluluk modeli oluşturmanın en iyi yolu nedir?