Zaman serisi analizinde tuzaklar


46

Ben sadece zaman serisi analizinde kendi kendine öğrenmeye başlıyorum. Genel istatistiklere uygulanmayan çok sayıda potansiyel tuzaklar olduğunu fark ettim. Öyleyse, temel istatistiksel günahlar nedir? , Sormak istiyorum:

Zaman serileri analizinde yaygın tuzaklar veya istatistiksel günahlar nelerdir?

Bu, bir topluluk vikisi, cevap başına bir kavram olarak tasarlanmıştır ve lütfen, Genel istatistik günahları nedir? Altında listelenen (ya da olması gereken) daha genel istatistiksel tuzaklar tekrarlanmamalıdır.

Yanıtlar:


18

Zaman serilerinde doğrusal regresyonun ekstrapolasyonu, burada regresyondaki bağımsız değişkenlerden biri. Doğrusal bir regresyon, kısa bir zaman ölçeğinde bir zaman serisini yaklaşık olarak gösterebilir ve bir analizde faydalı olabilir, ancak düz bir çizginin ekstrapolasyonu aptalcadır. (Zaman sonsuz ve sürekli artıyor.)

EDIT: naught101'in "aptal" hakkındaki sorusuna cevaben, cevabım yanlış olabilir, fakat bana öyle geliyor ki, gerçek dünyadaki fenomenlerin çoğu sürekli olarak artmıyor ya da azalmıyor. Çoğu sürecin sınırlayıcı faktörleri vardır: insanlar yaşlandıkça yüksekliğini durdurabilir, stoklar her zaman artamaz, popülasyonlar negatif olamaz, evinizi milyarlarca köpekle dolduramazsınız, vb. Gelecek bağımsız değişkenlerin aksine Zaman akla, sonsuz bir desteğe sahip olduğundan, 10 yıldan bu yana kesinlikle var olacağından, Apple'ın bundan 10 yıl sonra hisse senedini öngören doğrusal modelinizi gerçekten hayal edebilirsiniz. (Bununla birlikte, 20 metre yüksekliğindeki yetişkin erkeklerin ağırlığını tahmin etmek için boy ağırlıklı bir regresyon tahmin edemezsiniz: yoklar ve yoklar.)

Ek olarak, zaman serileri sık sık döngüsel veya sözde döngüsel bileşenlere veya rastgele yürüme bileşenlerine sahiptir. IrishStat'ın cevabında belirttiği gibi, mevsimsellik (bazen çoklu zaman ölçeğinde mevsimsellikler), seviye kaymaları (bu, onları hesaba katmayan lineer regresyonlara garip şeyler yapacak), vb. Düşünmelisiniz. Kısa vadede uygun, ancak fazladan hesaplarsanız çok yanıltıcı olun.

Tabii ki, zaman aşımına uğradığınızda, zaman serilerinizde veya düştüğünüzde başınız belaya girebilir. Fakat bana öyle geliyor ki, sık sık birisinin Excel'e zaman serisi (suçlar, hisse senedi fiyatları, vb.) Attığını, FORECAST ya da LİNE bıraktığını ve hisse senedi fiyatlarının sürekli olarak yükseleceğini sanıyordum. (veya olumsuz olmak dahil olmak üzere sürekli düşüş).


Neden aptalca olduğunu genişletebilir misin ?
naught101

1
Harika örnekler için +1. Şu anda evime tam olarak kaç köpek sığabileceğimi
hesaplıyorum

3
Bu, amacın
Zach,

1
@naught Mark Twain , mümkün olan en basit dilde, "aptal" ın neden bir zaman serisinin doğrusal ekstrapolasyonuna uygun olduğunu gösteren harika bir iş çıkardı.
whuber

Ve bu: stats.stackexchange.com/a/13904/9007 ... Benzer bir nokta, bir polinom eğiliminin (özellikle yüksek dereceli) veya fiziksel olarak ilgisi olmayan başka bir modelin ekstrapolasyonudur. Kendime oktav öğretirken bunun neden kötü bir fikir olduğuna dair bir blog yazısı yazdım .
naught101

13

İki durağan olmayan zaman serisi arasındaki korelasyona dikkat etmek. (Yüksek bir korelasyon katsayısına sahip olacakları beklenmeyen bir durum değildir: “anlamsız korelasyon” ve “eşbütünleşme” araştırması.)

Örneğin, google korelasyonunda köpekler ve kulak piercingleri 0,84'lük bir korelasyon katsayısına sahiptir.

Daha eski bir analiz için, bkz. Yule'nin 1926'daki sorunu araştırması


Tabii ki her zaman değil. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
naught101

@Wayne Yule gazetesi için bir ton teşekkürler. 1970'den beri bunu alıntı yapıyorum ve hiç okumamıştım. Bazı, görünüşte küçük çevrelerde iyi bilinmektedir.
IrishStat

7

Üst düzeyde, Kolmogorov bağımsızlığı istatistikte önemli bir varsayım olarak tanımladı - iddialı bir varsayım olmadan, istatistiklerde birçok önemli sonuç, zaman serisine veya daha genel analiz görevlerine uygulanıp uygulanmadığı doğru değildir.

Çoğu gerçek dünyadaki ayrık zamanlı sinyallerde art arda veya yakındaki numuneler bağımsız değildir, bu yüzden bir süreci deterministik bir modele ve stokastik bir gürültü bileşenine ayırmaya özen gösterilmelidir. Buna rağmen, klasik stokastik analizde bağımsız artış varsayımı problemlidir: 1997 ekonu Nobel'i ve ödüllü adayları arasında sayan 1998 tarihli LTCM patlamasını hatırla yöntemler).


Çalışma alanı olarak "zaman serisi analizi". Temel olarak, zaman serileri üzerinde çalışmaya yeni başlayan birini (herhangi bir türde ve herhangi bir analiz türünde) açabilecek herhangi bir şeyi kastediyorum. Kapsamlı cevaplar aramıyorum. Burada yapmaya çalıştığım şeye dair bir fikir edinmek için soruma attığım soruyu kontrol edin.
naught101

Ne tür bir analiz demek istedim
alancalvitti

Biliyorum. Sanırım sorunun noktasını kaçırıyorsunuz. Herhangi bir tür analizinde, deneyimlediğiniz herhangi bir zaman serisi probleminin ortak tökezleyen blokları hakkında yorum yapmaktan çekinmeyin . Sadece zaman serisine özgü problemlere devam et.
naught101

Hey @alancalvitti, bu ekonomi örneği kulağa ilginç geliyor. Buradan bağlanabileceğimiz iyi bir açıklama biliyor musun?
naught101

Bu cevabı, sunulan ana noktaya geri getirmek için (cevap başına bir nokta stiline getirmek için) düzenledim. Bu, spektral analiz ile ilgili maddeleri kaldırmak anlamına geliyordu. Belki de bir şey ayrı bir cevapta söylenebilir (tuzaklar hakkında görünmese de, özellikle de burada not edebileceğimiz spektral analizle ilgili tuzaklar vardır). Yukarıdaki tartışma artık bir anlam ifade etmiyor, ama bunu anlıyorsunuz, sanırım: /
naught101

2

Modelinizin sonuçlarından çok emin olmak, çünkü bir zaman serisinin otomatik korelasyonunu hesaba katmayan bir teknik / model (OLS gibi) kullanırsınız.

Güzel bir grafiğim yok, ancak "R ile Tanıtıcı Zaman Serisi" kitabı (2009, Cowpertwait, et al) makul bir sezgisel açıklama veriyor: Olumlu bir otokorelasyon varsa, ortalamanın üstünde veya altında değerler kalıcı olmaya meyillidir. ve zaman içinde bir araya toplanmalıdır. Bu, ortalamanın daha az etkin bir tahminine yol açar; bu, ortalamanın sıfır otomatik korelasyon olması durumundakiyle aynı kesinliğe göre tahmin edilmesi için daha fazla veriye ihtiyacınız olduğu anlamına gelir. Etkili olduğundan daha az veriye sahipsin.

OLS işlemi (ve bu nedenle siz) otomatik bir korelasyonun olmadığını varsayıyor, bu nedenle aynı zamanda ortalamanın tahmininin (sahip olduğunuz veri miktarı için) gerçekte olduğundan daha doğru olduğunu varsayıyorsunuz. Böylece sonuçlarınızdan olması gerektiğinden daha emin olursunuz.

(Bu, negatif otokorelasyon için diğer şekilde de işe yarayabilir: ortalamaya ilişkin tahmininiz aslında aksi olacağından daha verimlidir. Bunu kanıtlayacak hiçbir şeyim yok, ancak pozitif korelasyonun çoğu gerçek dünyada daha yaygın olduğunu öne sürüyorum. negatif korelasyondan çok seri.)


Buradaki bir örnek harika olurdu, cevapları tam olarak anlamadım
naught101

@Wayne düzenleme için teşekkürler, ama ben bir tür gerçek dünya örneği, tercihen biraz görselleştirme demek istedim. Açıkçası, diğerleri de ekleyebilir - bu bir topluluk wiki.
naught101

1
@ naught101: Ah. Burada yaptığım üç önerimden ikisi, öğrendiklerime dayanıyor, ancak iyi bir örnek oluşturacak kadar iyi değil. İnternette bir tane aramaya çalışacağım.
Wayne

Sadece benzetilmiş veriler, ancak başka bir soruya verdiğim cevabım, OLS ile uyumlu bir modelde R koduna sahip ve daha sonra otokorelasyonu hesaba katarak daha önemli p değerlerine sahip. stats.stackexchange.com/questions/27254/…
Peter Ellis

2

Seviye kaymalarının, mevsimsel darbelerin ve yerel zaman eğilimlerinin etkisi ... bir defalık darbelere ek olarak. Zaman içindeki parametrelerdeki değişimleri araştırmak / modellemek önemlidir. Zaman içindeki hataların varyansındaki muhtemel değişiklikler araştırılmalıdır. Y'nin X'in eşzamanlı ve gecikmeli değerleri tarafından nasıl etkilendiğini belirleme. X'in gelecekteki değerlerinin Y'nin şu anki değerlerini etkileyip etkilemediğini nasıl tespit edersiniz. Saatlik verilerin günlük değerlerden etkilendiği karma frekans problemleri nasıl modellenir?

naught benden seviye değişimleri ve bakliyatlar hakkında daha spesifik bilgi / örnekler vermemi istedi. Bu amaçla şimdi biraz daha tartışma içereceğim. Durağanlık olmadığını öne süren bir ACF sergileyen bir dizi, bir "semptom" ortaya koymaktadır. Önerilen bir çözüm, verileri "ayırmak" tır. Göz ardı edilen bir çözüm veriyi "caydırmak" dır. Bir serinin ortalamada “büyük” bir seviye kayması varsa (yani kesişme) bu serinin tamamının farklılığı önermek için kolayca yanlış yorumlanması mümkündür. Seviye kayması sergileyen bir dizi örneğini göstereceğim. Eğer ikisi arasındaki fark vurgulanmış (genişletilmiş) olsaydı, toplam serinin acf değeri (yanlış!) Fark ihtiyacını ortaya koyardı. İşlenmemiş Nabızlar / Seviye Değişimleri / Mevsimsel Nabızlar / Yerel Zaman Eğilimleri, model yapısının önemini engelleyen hataların varyansını şişirir ve hatalı parametre tahminlerinin ve zayıf tahminlerin nedenidir. Şimdi bir örneğe. thgörüntü tanımını buraya girin27 aylık değerlerin bir listesidir. Bu grafik görüntü tanımını buraya girin. Dört darbe ve 1 seviye kayması vardır VE TREND! görüntü tanımını buraya girinve görüntü tanımını buraya girin. Bu modelden kalanlar beyaz bir gürültü süreci gösterir görüntü tanımını buraya girin. Bazı (çoğu!) Ticari ve hatta ücretsiz tahmin paketleri, ilave mevsimsel faktörlere sahip bir trend modeli varsaymanın bir sonucu olarak aşağıdaki saçmalıkları sunar görüntü tanımını buraya girin. Mark Twain'i sonuçlandırmak ve parola koymak. “Saçmalık var ve saçmalık var ama hepsinin en duygusal olmayan saçmalığı istatistiksel saçmalık!” daha makul olarak karşılaştırıldığında görüntü tanımını buraya girin. Bu yardımcı olur umarım !


1
Gerçekten mi? Bunların hepsi tuzaklar ve günahlar ? (Sorunun vurgulanan kısmını tekrar okuyun!) Belki de yazdıklarınızın tam tersini mi kastediyorsunuz?
whuber

Yorumlarımın amacı, bu olası gerçek dünya yapılarının bazılarını eğlendirmemenin veya eğlendirmemenin tuzaklarına işaret etmekti. Kişinin makul şekilde doğrulanmamış varsayımlardan kaçınması gerekir, aksi halde biri çok şüpheli sonuçlar doğurabilir.
IrishStat

3
Bunun niyet olduğunu anladım, ancak şu anki haliyle cevabınızı yanlış anlamak kolaydır. Örneğin, bir kerelik darbelerin "etkisini" değerlendirmek günah mıdır yoksa bunu yapmamak günah mıdır? Bu, her iki yorum için da iyi bir vakanın olabileceği konusunda yeterince belirsizdir! (Evet, bu bir günahtır, çünkü bir kerelik darbeler sadece gereksiz etki vermek istemediğiniz aykırı değerler olabilir ve hepsi için hesaplama modeli aşırı değerlendirebilir; uzun zamandır ve görmezden gelmesi, diğer parametrelerin tahminlerini önyargılı hale getirebilir.)
whuber

@whuber Bir defalık darbenin etkisi sürerse, bu art arda noktalarda bir defalık darbelerin dizisi olarak modellenebilir. Bu olabileceği kadar zarif değil, yine de etkilidir. Oldukça doğru bir şekilde ifade ettiğiniz gibi, tekrarlayan yapının parametre tahminlerini bozan hatalı değerlere sahip olmak istemezsiniz; bu nedenle, darbeler, seviye kaymaları, mevsimsel darbeler ve / veya yerel zaman eğilimleri gibi belirtilmemiş deterministik yapıyı tedavi etmemek bir "günah" olur.
IrishStat

İlk cümle (seviye değişimleri ve darbeler) büyük ölçüde genişletildiyse (bazı örneklerle) ve geri kalanlar düştüğünde bunun gerçekten ilginç bir cevap olacağını düşünüyorum. Heteroskedastisite iyi bir ayrı cevap verecektir.
naught101

1

Trend'i zaman içinde Doğrusal bir büyüme olarak tanımlamak .

Her ne kadar bazı eğilimler bir şekilde doğrusal olsa da (bkz. Apple hisse senedi fiyatı) ve zaman serisi çizelgesi doğrusal regresyon bulabileceğiniz bir çizgi grafik gibi görünse de, çoğu eğilim doğrusal değildir.

Ölçü davranışını değiştiren belirli bir zamanda bir şey olduğunda, değişiklikler gibi Adım değişiklikleri var ( “Köprü çöktü ve o zamandan beri otomobil yok ”).

Bir diğer popüler eğilim "Buzz" dır - üstel büyüme ve daha sonradan benzer keskin bir düşüş ( "Pazarlama kampanyamız büyük bir başarıydı, ancak etki birkaç hafta sonra azaldı" ).

Zaman serilerindeki eğilimin doğru modelini (Lojistik Regresyon vb.) Bilmek, zaman serileri verilerinde tespit edebilmek için çok önemlidir.


1

Daha önce belirtilen bazı harika noktalara ek olarak şunu eklerdim:

  1. Uzun döngüler veya mevsimsellik tespit edilemedi - yalnızca 'yeterince uzun' bir zaman dilimindeki veriler incelenerek
  2. Tahmini hata geçmiş dönemler için değerlendirilemedi (geri test )
  3. Rejim değişikliklerinin tespit edilip ele alınmaması

Bu problemler, ilgili istatistiksel yöntemlerle değil, çalışmanın tasarımıyla, yani hangi verilerin dahil edileceğini ve sonuçların nasıl değerlendirileceğiyle ilgilidir.

Nokta 1'deki zor kısım, gelecekle ilgili sonuç çıkarmak için yeterli veri periyodu gördüğümüzden emin olmaktır. Zaman serileri konusundaki ilk dersimde, profesör tahtaya uzun bir sinüs eğrisi çizdi ve kısa bir pencerede (oldukça basit ama ders bana bağlı kaldı) gözlenen uzun döngülerin doğrusal trendler gibi göründüğünü belirtti.

2. Nokta, özellikle modelinizin hatalarının bazı pratik sonuçları olması durumunda geçerlidir. Diğer alanların yanı sıra Finans'ta da yaygın bir şekilde kullanılıyor, ancak tahmin hatalarını geçmiş dönemlerde değerlendirmenin verilerin izin verdiği tüm zaman serisi modelleri için çok anlamlı olduğunu savunuyorum.

3. nokta, geçmiş verilerin hangi kısmının geleceği temsil ettiği konusuna tekrar değinmektedir. Bu, çok miktarda literatür içeren karmaşık bir konudur - Kişisel favorim: Zucchini ve MacDonald .


1

Örneklenen zaman serilerinde Aliasing kullanmaktan kaçının. Düzenli aralıklarla örneklenen zaman serisi verilerini analiz ediyorsanız, örnekleme oranı örneklemekte olduğunuz verideki en yüksek frekans bileşeninin frekansının iki katı olmalıdır. Bu Nyquist örnekleme teorisidir ve dijital sese, aynı zamanda düzenli aralıklarla örneklenen herhangi bir zaman serisine uygulanır. Aliasing işleminden kaçınmanın yolu, örnekleme oranının yarısı olan nyquist oranının üzerindeki tüm frekansları filtrelemektir. Örneğin, dijital ses için, 48 kHz'lik bir örnekleme hızı, 24 kHz'in altında bir kesim ile düşük geçişli bir filtreye ihtiyaç duyacaktır.
Takma işleminin etkisi, çakma hızının jantın dönüş hızına yakın olduğu bir strobikik etki nedeniyle, tekerlekler geriye doğru döndüğünde görülebilir. Gözlenen yavaş oran, gerçek devrim oranının bir diğer adıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.