Zaman Serisi Verilerini Tren / Test / Doğrulama Kümelerine Bölme


12

Zaman serisi verilerini tren / test / validasyon setlerine ayırmanın en iyi yolu nedir, validasyon seti hiperparametre ayarı için kullanılacaktır?

3 yıllık günlük satış verilerine sahibiz ve planımız eğitim verileri olarak 2015-2016'yı kullanmak, ardından doğrulama seti olarak kullanılacak 2017 verilerinden 10 hafta ve 2017 verilerinden 10 hafta sonra rastgele örneklemektir. test seti. Daha sonra test ve doğrulama setindeki her gün için bir yürüyüş yapacağız.

Yanıtlar:


8

İleriye dönük önyargıdan kaçınmak için zamana dayalı bir bölünme kullanmalısınız. Zamanla bu sırayla eğitim / doğrulama / test.

Test seti verilerin en yeni kısmı olmalıdır. Bir üretim ortamında, bir modeli eğittikten sonra, modelin oluşturulmasından sonra gelen verileri değerlendirdiğiniz bir durumu simüle etmeniz gerekir. Doğrulama ve eğitim için kullandığınız rastgele örnekleme iyi bir fikir değildir.


5

Eğitim / doğrulama / test / tahmin için zaman serisi verilerinizi kullanmanın en eksiksiz yolunun bu olduğunu düşünüyorum:

resim açıklamasını buraya girin

Resim kendi kendini açıklayıcı mı? Değilse, lütfen yorum yapın ve daha fazla metin ekleyeceğim ...


3

Sadece bir eğitim seti / doğrulama seti oluşturmak yerine, daha fazla set oluşturabilirsiniz.

İlk eğitim seti, 6 aylık veriler (2015'in ilk dönemi) olabilir ve doğrulama seti sonraki üç ay (Temmuz-Ağustos 2015) olabilir. İkinci eğitim seti, ilk eğitim ve doğrulama setinin bir kombinasyonu olacaktır. Doğrulama seti önümüzdeki üç aydır (Eylül-Ekim 2015). Ve bunun gibi.

Bu, eğitim setlerinin önceki eğitim ve doğrulama setinin bir kombinasyonu olduğu K-Katlama çapraz doğrulamanın bir varyasyonudur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.