Bir kağıt fabrikasının performansı hakkında tahminlerde bulunmak için RF regresyonunu kullanmaya çalışıyorum.
Girişler için dakika dakika verilerim var (odun hamurunun oranı ve miktarı vb ...) ve aynı zamanda makinenin performansı (üretilen kağıt, makinenin çektiği güç) ve 10 dakika tahminlerde bulunmak istiyorum performans değişkenleri üzerinde.
12 aylık verilerim var, bu yüzden eğitim seti için 11 aya ve test için son aya ayırdım.
Şimdiye kadar, performans değişkenlerinin her biri için 1-10 dakika değerinde gecikmeli 10 yeni özellik oluşturdum ve bunları ve girişleri tahminler yapmak için kullandım. Test setindeki performans oldukça iyiydi (sistem oldukça tahmin edilebilir), ancak yaklaşımımda bir şey eksik olduğumdan endişeliyim.
Örneğin, bu makalede , yazarlar rastgele orman modellerinin tahmin yeteneğini test etme yaklaşımlarını belirtmektedir:
Simülasyon yinelenen yeni bir haftalık veri ekleyerek, güncellenen verilere dayanarak yeni bir model eğiterek ve bir sonraki hafta için salgın sayısını tahmin ederek devam eder
Bunun zaman serilerinde 'daha sonra' verilerin test olarak kullanılmasından farkı nedir? RF regresyon modelimi bu yaklaşımla ve test veri setinde doğrulamalı mıyım? Ayrıca, rastgele orman regresyonuna bu tür bir 'otoregresif' yaklaşım zaman serileri için geçerli midir ve gelecekte 10 dakika bir tahminle ilgileniyorsam bu çok gecikmeli değişkenleri bile yaratmam gerekir mi?