AIC ve zaman serilerinde çapraz onaylama: küçük örneklem durumu


23

Bir zaman serisi ayarında model seçimi ile ilgileniyorum. Somutluk için, farklı gecikme sıralarına sahip bir ARMA model havuzundan bir ARMA modelini seçmek istediğimi varsayalım. Nihai amaç tahmin etmek .

Model seçimi yapılabilir

  1. çapraz doğrulama,
  2. bilgi kriterlerinin kullanılması (AIC, BIC),

diğer yöntemlerin yanı sıra.

Rob J. Hyndman, zaman serileri için çapraz doğrulama yapmanın bir yolunu sunar . Nispeten küçük numuneler için, çapraz doğrulamada kullanılan numune boyutu , orijinal numune boyutundan niteliksel olarak farklı olabilir . Örneğin, eğer orijinal örnek büyüklüğü 200 gözlem ise, ilk 101 gözlemi alarak ve 100 çapraz doğrulama sonucu elde etmek için pencereyi 102, 103, ..., 200 gözlemine genişleterek çapraz doğrulama başlatmayı düşünebiliriz. Açıkçası, 200 gözlem için makul derecede anlamlı olan bir model, 100 gözlem için çok büyük olabilir ve bu nedenle doğrulama hatası büyük olacaktır. Bu nedenle, çapraz doğrulama, sistematik olarak çok temelli modelleri destekleyecektir. Bu, örnek boyutlarındaki uyumsuzluğa bağlı olarak istenmeyen bir etkidir .

Çapraz doğrulamaya bir alternatif, model seçimi için bilgi ölçütlerini kullanmaktır. Tahmin yapmayı umduğum için AIC kullanırdım. Adım zaman serisi modelleri için MSE tahmin bir- AIC (göre ayaktan of-numuneyi en aza indirmek için asimptotik eşdeğer olmasına rağmen bu yazı Rob J. Hyndman'a tarafından), bu numunenin beri burada alakalı şüphe Umurumda olan bedenler o kadar büyük değil ...

Soru: Küçük / orta ölçekli numuneler için zaman serisi çapraz doğrulama için AIC seçmeli miyim?

Burada , burada ve burada birkaç ilgili soru bulunabilir .


1
Ayrıca, BIC'nin “çapraz doğrulama” nı engelleme bağlantısı verilen "uzun" bir tahminde de (m-adım ileride) eşdeğer olduğunu hayal ediyorum. 200 gözlem için olsa da, muhtemelen pek farketmez (2p yerine 5p ceza).
Olasılık 20

1
@CagdasOzgenc, Rob J. Hyndman'a çapraz doğrulamanın OP'de verilen bağlamda çok eşitsiz modelleri tercih edip etmeyeceğini ve bir onay almasının muhtemel olup olmadığını sordum . Demek istediğim, sohbette anlatmaya çalıştığım fikir geçerli gibi görünüyor.
Richard Hardy

AIC veya BIC'i tercih etmenin teorik nedenleri vardır, çünkü bir olasılık olabilir ve bilgi teorisi ile başlarsa, o zaman temelleri iyi bilinen istatistiksel özelliklere sahip olan metriktir. Ancak çoğu zaman, o kadar büyük olmayan bir veri seti ile uğraşmaktadır.
Analist,

3
AIC'yi anlamaya çalışmak için çok zaman harcıyorum. Beyanın eşitliği, CLT'nin versiyonlarına karşılık gelen sayısız yaklaşıma dayanmaktadır. Şahsen bunun AIC'yi küçük örnekler için çok sorgulayıcı yaptığını düşünüyorum.
meh

1
@ IsabellaGhement, neden olmasın? Kendimizi bu özel çapraz onaylama kullanımıyla sınırlandırmak için hiçbir neden yoktur. Bu, elbette, çapraz onaylamanın model değerlendirmesi için kullanılamayacağını söylemek değildir.
Richard Hardy,

Yanıtlar:


2

Teorik düşünceleri bir kenara bırakarak, Akaike Bilgi Kriteri, özgürlük dereceleriyle cezalandırılabilir. Bundan sonra, AIC verilerdeki belirsizliği hesaba katar ( -2LL ) ve daha fazla parametrenin fazla uydurma riskine yol açtığı varsayımını yapar ( 2k ). Çapraz doğrulama, sadece başka varsayımlar gerekmeden modelin test seti performansına bakar.

Eğer tahminler yapma konusunda çoğunlukla önem veriyorsanız ve test seti (ler) gerçek dünya verilerine makul benzer olacağını varsayabiliriz, Çapraz doğrulama için gitmek gerekir. Muhtemel problem, verileriniz küçük olduğunda, onu bölerek, küçük eğitim ve test setleri ile bitiyor olmanızdır. Eğitim için daha az veri kötüdür ve test seti için daha az veri çapraz doğrulama sonuçlarını daha belirsiz hale getirir (bkz. Varoquaux, 2018 ). Test örneğiniz yeterli değilse, AIC'yi kullanmaya zorlanabilir, ancak neyi ölçtüğünü ve ne varsayımları yapabileceğini göz önünde bulundurabilirsiniz.

Diğer yandan, yorumlarda da belirtildiği gibi, AIC size asemptomatik garanti vermektedir ve küçük örneklemlerde durum böyle değildir. Küçük numuneler de verilerdeki belirsizlik konusunda yanıltıcı olabilir.


Cevabınız için teşekkürler! Verilerin zaman serisi olması nedeniyle çapraz doğrulamadaki çok daha küçük örneklem boyutunun istenmeyen etkisi ile ilgili özel bir yorumunuz var mı?
Richard Hardy,

1

Hm - Nihai hedefiniz tahmin etmekse, neden model seçimi yapmayı düşünüyorsunuz? Bildiğim kadarıyla, hem "geleneksel" istatistiksel literatürde hem de makine öğrenmesi literatüründe, model ortalamalarının tahmin söz konusu olduğunda üstün olduğu iyi tespit edildi. Basitçe söylemek gerekirse, model ortalamalandırması, tüm makul modelleri tahmin etmeniz, hepsinin göreceli model kanıtlarıyla ağırlıklandırılmış tahminlerini tahmin etmelerine ve ortalamalarına izin vermeniz anlamına gelir.

Başlamak için yararlı bir referans https://journals.sagepub.com/doi/10.1177/0049124104268644

Bunu basitçe açıklarlar ve ilgili literatüre atıfta bulunurlar.

Bu yardımcı olur umarım.


-1

Benim fikrim, ikisini birden yap ve gör. AIC kullanımı doğrudan. AIC daha küçük, model daha iyi. Ancak kişi AIC'ye güvenemez ve böyle bir modelin en iyisi olduğunu söyler. Bu nedenle, bir ARIMA model havuzunuz varsa, her birini alın ve mevcut değerlerin tahminini kontrol edin ve hangi modelin mevcut zaman serisi verilerine en yakın tahmin ettiğini görün. İkincisi, AIC'yi de kontrol edin ve her ikisini de göz önünde bulundurarak iyi bir seçim yapın. Sert ve hızlı kurallar yoktur. Sadece en iyisini öngören modele gidin.


Cevabınız için teşekkür ederim! Farklı model seçim yöntemleri arasında seçim yapmanın ilkeli yolunu arıyorum. Doğru ve sert kuralların olmadığı konusunda haklı olsanız da , karışık gerçek dünya koşullarında bize yardımcı olmak için varsayımsal ideal koşullar altında açık kurallara ihtiyacımız var. Bu yüzden, genel olarak bakış açınıza katılıyorum, ancak cevabınızı özellikle yararlı bulmuyorum.
Richard Hardy,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.