Zaman serisi tahmini için Rastgele Orman regresyonu


10

Bir kağıt fabrikasının performansı hakkında tahminlerde bulunmak için RF regresyonunu kullanmaya çalışıyorum.

Girişler için dakika dakika verilerim var (odun hamurunun oranı ve miktarı vb ...) ve aynı zamanda makinenin performansı (üretilen kağıt, makinenin çektiği güç) ve 10 dakika tahminlerde bulunmak istiyorum performans değişkenleri üzerinde.

12 aylık verilerim var, bu yüzden eğitim seti için 11 aya ve test için son aya ayırdım.

Şimdiye kadar, performans değişkenlerinin her biri için 1-10 dakika değerinde gecikmeli 10 yeni özellik oluşturdum ve bunları ve girişleri tahminler yapmak için kullandım. Test setindeki performans oldukça iyiydi (sistem oldukça tahmin edilebilir), ancak yaklaşımımda bir şey eksik olduğumdan endişeliyim.

Örneğin, bu makalede , yazarlar rastgele orman modellerinin tahmin yeteneğini test etme yaklaşımlarını belirtmektedir:

Simülasyon yinelenen yeni bir haftalık veri ekleyerek, güncellenen verilere dayanarak yeni bir model eğiterek ve bir sonraki hafta için salgın sayısını tahmin ederek devam eder

Bunun zaman serilerinde 'daha sonra' verilerin test olarak kullanılmasından farkı nedir? RF regresyon modelimi bu yaklaşımla ve test veri setinde doğrulamalı mıyım? Ayrıca, rastgele orman regresyonuna bu tür bir 'otoregresif' yaklaşım zaman serileri için geçerli midir ve gelecekte 10 dakika bir tahminle ilgileniyorsam bu çok gecikmeli değişkenleri bile yaratmam gerekir mi?


2
RF'ler, zamansal düşünceler için tasarlanmamıştır ve açıkça bütünleştirmezler. Bunu göz önüne alındığında, neden bu analiz için kullanıyorsunuz? Orada birçok zaman serisi metodolojisi vardır. Birini seçin.
Mike Hunter

2
@DJohnson Makaledeki yaklaşımı taklit etmeye çalışacağımı düşündüm: RF girişiminde bulunun ve ARIMA ile karşılaştırın. Bunun zaman ayırmaya değmeyeceğini mi ve sadece ARIMA'yı mı kullanacağınızı mı düşünüyorsunuz?
KRS-fun

4
@JJohnson, otoregresif modellerin mekaniği, kesitsel regresyon modellerine çok benziyor. Gecikmeli özellikler oluşturulduktan sonra neden RF'leri kesitsel bir ortamda kullanmıyorsunuz? Onları denemenin adil olduğunu düşünüyorum. Ancak, diğer yöntemlerin zaman serilerinde daha popüler olduğu konusunda haklısınız ve OP bunları keşfetmekten de yararlanabilir.
Richard Hardy

1
Benim görüşüm RF'lerin her şeyin çivi haline geldiği çekiç gibidir. OP tarafından açıklanan verilerle, ilk tercihim ARIMA değil panel verisi veya havuzlanmış model olacaktır.
Mike Hunter

5
Bunu şimdi karşıladım ve birkaç gün önce atıfta bulunulan makaleyi okudum. Çok değişkenli zaman serisi tahmini için rastgele ormanı ve bir LSTM'yi karşılaştırıyorum. İlginç bir şekilde, LSTM eğitim verilerine daha az zaman dahil ederken daha iyisini yapar, ancak daha uzun yıllar veri eklediğim gibi, her iki yöntemin sonuçları da gerçek sonuçlara dönüşüyor. Bence bu çoğunlukla özellikler zamansal bileşenin üstesinden gelmek için yeterli bilgi sağladığı için. Her neyse, ilginç olduğunu düşündüm. Ayrıca, çok açık mevsimsel durumlar dışında ARIMA'nın hiç iyi çalışmadığını gördüm ve çok değişkenli ARIMA ...
Hobbes

Yanıtlar:


6

Bunun zaman serilerinde 'daha sonra' verilerin test olarak kullanılmasından farkı nedir?

Alıntıladığınız yaklaşıma "yuvarlanan orijin" tahmini denir: tahmin ettiğimiz orijin "ileri yuvarlanır" ve egzersiz verileri yeni mevcut bilgilerle güncellenir. Daha basit yaklaşım, tek bir kaynak seçtiğimiz "tek orijinli tahmin" dir.

Yuvarlanan orijin tahmininin avantajı, zaman içinde bir tahmin sistemini simüle etmesidir . Tek orijinli tahminlerde, şans eseri sistemimizin çok iyi (veya çok kötü) çalıştığı ve sistemimizin performansı hakkında yanlış bir fikir verebilecek bir orijin seçebiliriz.

Yuvarlanan orijin tahmininin bir dezavantajı, daha yüksek veri gereksinimidir. En az 50 tarihsel gözlemle 10 adım tahmin etmek istiyorsak, bu tek menşei genel olarak 60 veri noktasıyla yapabiliriz. Ancak, üst üste binen 10 yuvarlanma kaynağı yapmak istiyorsak, 70 veri noktasına ihtiyacımız var.

Diğer dezavantaj elbette daha yüksek karmaşıklığıdır.

Söylemeye gerek yok, "daha sonraki" verileri de yuvarlanan başlangıç ​​noktası tahmininde kullanmamalısınız, ancak yalnızca her yinelemede kullandığınız başlangıç ​​noktasından önceki verileri kullanmalısınız.

RF regresyon modelimi bu yaklaşımla ve test veri setinde doğrulamalı mıyım?

Yeterli veriye sahipseniz, yuvarlanan bir kaynak değerlendirmesi bana her zaman tek bir kaynak değerlendirmesinden daha fazla güven verecektir, çünkü umarım menşein etkisini ortalama olarak hesaplar.

Ayrıca, rastgele orman regresyonuna bu tür bir 'otoregresif' yaklaşım zaman serileri için geçerli midir ve gelecekte 10 dakika bir tahminle ilgileniyorsam bu çok gecikmeli değişkenleri bile yaratmam gerekir mi?

Evet, yuvarlanma veya tek orijinli öngörme, herhangi bir öngörme alıştırması için geçerlidir . Rastgele ormanlar veya ARIMA veya başka bir şey kullanmanıza bağlı değildir.

Gecikmiş değişkenlere ihtiyacınız olup olmadığı size danışmanlık yapamayacağımız bir şeydir. Başka girdiler de önerebilecek bir konu uzmanıyla konuşmak en iyisi olabilir. RF'nizi gecikmeli girişlerle vs olmadan deneyin. Ayrıca ARIMA veya ETS gibi standart kriterler veya hatta daha basit yöntemlerle karşılaştırın, ki bu da şaşırtıcı bir şekilde yenilmesi zor olabilir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.