Gecikmeli çoklu doğrusal regresyon ve zaman serileri arasındaki “mekanik” fark nedir / nelerdir?


14

Şu anda veri mühendisliği alanında yüksek lisans eğitimi almak isteyen işletme ve ekonomi mezunuyum. Doğrusal regresyon (LR) ve sonra zaman serisi analizi (TS) üzerinde çalışırken aklıma bir soru geldi. Neden çoklu lineer regresyon kullanmak ve ona gecikmeli değişkenler eklemek yerine yepyeni bir yöntem, yani zaman serisi (ARIMA) yaratalım (gecikmeler sırası ACF ve PACF kullanılarak belirlenir)? Böylece öğretmen konu hakkında biraz deneme yazmamı önerdi. Boş elini yardım etmeye gelmezdim, bu yüzden konuyla ilgili araştırmamı yaptım.

LR kullanırken, Gauss-Markov varsayımlarının ihlal edilmesi durumunda OLS regresyonunun yanlış olduğunu ve bunun zaman serisi verilerini (otokorelasyon vb.) Kullanırken olduğunu biliyordum. (bununla ilgili başka bir soru, bir GM varsayımının bağımsız değişkenlerin normal olarak dağıtılması mı yoksa sadece bağımsız değişkenlere koşullu bağımlı değişken mi?)

Ayrıca, burada önerdiğimi düşündüğüm dağıtılmış bir gecikme regresyonu kullanırken ve parametreleri tahmin etmek için OLS kullanarak değişkenler arasındaki çoklu bağlantıların ortaya çıkabileceğini (açıkçası) tahmin ederim.

Bir de TS ve LR hakkında benzer yazı burada, @IrishStat söyledi:

... regresyon modeli, dinamik regresyon modeli veya XARMAX modeli olarak da bilinen bir Transfer Fonksiyonu Modelinin özel bir halidir. Göze çarpan nokta, zaman serilerindeki model tanımlamasının, yani uygun farkların, X'lerin uygun gecikmelerinin, uygun ARIMA yapısının, Bakliyat, seviye Kaymaları, Yerel zaman eğilimleri, Mevsimsel Bakliyat ve birleşim gibi tanımlanmamış deterministik yapının uygun tanımlanmasıdır. parametrelerdeki değişiklikler veya hata sapmaları dikkate alınmalıdır.

(Autobox'ta Box Jenkins'e karşı LR hakkındaki makalesini de okudum.) Ama bu hala sorumu çözmüyor (ya da en azından benim için RL ve TS'nin farklı mekaniğini netleştirmiyor).

Gecikmeli değişkenlerde bile OLS problemlerinin ortaya çıktığı ve bunun ne etkili ne de doğru olmadığı açıktır, ancak maksimum olasılık kullanılırken bu sorunlar devam ediyor mu? ARIMA'nın maksimum olasılıkla tahmin edildiğini okudum, bu yüzden gecikmeli LR OLS yerine ML ile tahmin edilirse, "doğru" katsayıları verir mi (sipariş MA'sı gibi gecikmeli hata terimlerini de içerdiğimizi varsayalım) q).

Kısacası, sorun OLS mu? ML uygulanarak sorun çözüldü mü?


4
John Maynard Keynes'e esrarengiz benzerlik.
Nick Cox

Merhaba @ NickCox, evet, benim favori ekonomistim, sanırım inanılmaz bir adamdı ve birçok yönden son derece yetenekli ... sorum hakkında herhangi bir yardım? Anlamaya çalıştığım, gecikmeli modelin neden OLS tahmini ile çalışmadığı ve maksimum olasılık tahmini ile doğru tahmin edip etmeyeceği. En iyi modelin bir aktarım işlevi olduğunu anlıyorum ve şu anda çalışıyorum. Ancak OLS ile ilgili teorik soru hala burada. Eğer herhangi bir otokorelasyon mevcut değilse, gecikmeler onu ortadan kaldırırsa (multicoll'un mevcut olmadığını da varsayalım), işe yarar mı? ya da hala var mı ve altında yatan
Miguel M.

@NickCox ... OLS'nin çalışamayacağı ve bu yöntemle uygulanamayan gauss varsayımlarının etkisi / ihlali? Gördüğünüz gibi, bununla biraz kayboldum, cevaplamak için çok uzunsa, lütfen aydınlatabilecek bir ders verebilirseniz çok memnun olurum
Miguel M.

1
Mekanik açısından, kullanıcı için önerilen (uygun şekilde farklı) X değişkeninin ARMA modelinin durağanlığı yansıtmamasını öneriyorum. Bu filtre, BOTH uygun şekilde farklılaştırılmış serilere uygulanırsa, ortaya çıkan seri çifti genellikle çapraz korelasyon prosedürleri ile incelenebilir önerilen bir gecikme yapısını verir (anlama). Bu gecikme yapısı daha sonra belirtilmemiş / arka plan serileri (geçici hata işlemi) hakkında bir öneri vermek üzere uygun şekilde farklılaştırılmış orijinal serilere uygulanabilir. Bu hata işlemi daha sonra uygun ARMA'yı vermek üzere incelenebilir.
IrishStat

@IrishStat bu yüzden lütfen az önce söylediklerini tekrar yazmama izin ver. Bağımlı değişken Yt'ye ve bağımsız değişken Xt'a sahip olalım, her ikisinde de durağanlık olana kadar hem Yt hem de Xt'yi değiştiririz ve sonra gecikme yapısını bulmak için çapraz korelasyon fonksiyonunu uygulayabiliriz. Daha sonra Yt'den Xt'ye geriliyoruz ve hata terimini inceliyoruz. Hata teriminde ARMA yapısını bulursak, beyaz gürültüye sahip olana kadar modelde uygularız, değil mi? Ama sorum şu: OLS ile son model takıldı mı? Değilse, neden olmasın ve hangi yöntemi kullanıyoruz?
Miguel M.

Yanıtlar:


9

Neden çoklu doğrusal regresyon kullanmak ve buna gecikmeli değişkenler eklemek yerine (ACF ve PACF kullanılarak belirlenen gecikme sırası ile) yepyeni bir yöntem, yani zaman serisi (ARIMA) yaratılmalı mı?

Bir acil nokta doğrusal bir regresyonun sadece gözlenen değişkenlerle çalıştığı, ARIMA ise hareketli ortalama kısmında gözlemlenmemiş değişkenleri içerdiği; dolayısıyla ARIMA bir bakıma daha esnek veya daha geneldir. AR modeli doğrusal bir regresyon modeli olarak görülebilir ve katsayıları OLS kullanılarak tahmin edilebilir; burada , gözlemlenen bağımlı değişkenin gecikmelerinden oluşur . Bu arada, MA veya ARMA modelleri OLS çerçevesine uymaz, çünkü bazı değişkenler, yani gecikmeli hata terimleri gözlemlenmez ve bu nedenle OLS tahmincisi mümkün değildir.β^OLS=(XX)1XyX

Bir GM varsayımı, bağımsız değişkenlerin normal olarak dağıtılması gerektiğidir? ya da sadece bağımsız değişkenlere bağlı bağımlı değişken?

Normallik varsayımı bazen bağımsız değişkenler için değil model hataları için çağrılır. Bununla birlikte, ne OLS tahmincisinin tutarlılığı ve verimliliği için ne de Gauss-Markov teoreminin geçerli olması için normallik gereklidir. Gauss-Markov teoremi hakkındaki Wikipedia makalesinde açıkça "hataların normal olması gerekmiyor" belirtilmektedir.

değişkenler arasındaki çoklu bağlantı (açık bir şekilde) ortaya çıkabilir, bu nedenle tahminler yanlış olur.

Yüksek derecede çoklu doğrusallık, OLS tahmincisinin şişirilmiş varyansı anlamına gelir. Ancak, çoklu doğrusallık mükemmel olmadığı sürece OLS tahmincisi hala MAVİ'dir. Böylece ifadeniz doğru görünmüyor.

Gecikmeli değişkenlerde bile OLS problemlerinin ortaya çıktığı ve bunun ne etkili ne de doğru olmadığı açıktır, ancak maksimum olasılık kullanılırken bu sorunlar devam ediyor mu?

Bir AR modeli hem OLS hem de ML kullanılarak tahmin edilebilir; bu yöntemlerin her ikisi de tutarlı tahmin ediciler vermektedir. MA ve ARMA modelleri OLS ile tahmin edilemez, bu nedenle ML ana seçimdir; yine, tutarlıdır. Diğer ilginç özellik verimlilik ve burada tamamen emin değilim (ama açıkça soru oldukça standart olduğu gibi bir yerde bilgi olmalıdır). "Doğruluk" üzerine yorum yapmayı denerdim, ama bununla ne demek istediğinden emin değilim.


Merhaba Bay Hardy, cevap için çok teşekkür ederim. Gözlenen ve gözlemlenmeyen değerlerle ilgili olarak, sadece özetlemek gerekirse. ARIMA ve zaman serilerinde (daha spesifik olarak XARIMAX), "dinamik" bir yaklaşım kullanırız, çünkü tahmin hatasını kullanırız ve doğrusal regresyonda bunları kullanmayız - ancak yine de kullanabiliriz. O zaman burada meseleyi anlamıyorum. Ya da @IrishStat'ın dediği gibi, tek fark tanımlama ve model revizyon stratejilerine giden yol mu?
Miguel M.

Tahmin ne olacak, modelde gecikmeli hatalar eklenirken OLS (tekrar) doğru mu? Çoklu doğrusallık ile ilgili olarak, tahmin edilen katsayıların doğru olmayabileceğini kastettim, çünkü tahminlerinde büyük bir varyans var. Doğru yöntemle, OLS kullanımının önerilen gecikmeli modelleri kullanırken ML'ye kıyasla tarafsız ve verimli tahminler vermesi demek istedim.
Miguel M.

@MiguelM, şimdi seyahat ediyorum, daha sonra geri dönmeye çalışacağım.
Richard Hardy

1
"Doğrusal regresyonda onları kullanmıyoruz - ama yine de kullanabiliriz": bu değişkenleri gözlemlemiyoruz ve bu nedenle buradaki mekanikler nedeniyle doğrusal regresyon çerçevesinde kullanılamıyorlar (cevapta belirttiğim gibi, tahmin edici mümkün değildir); ancak ARIMA çerçevesinde kullanılabilirler. "Modelde gecikmeli hatalar eklenirken OLS (tekrar) doğru mu?" İle ilgili olarak, evet, bu doğru olmalıdır. "Doğruluk" ile ilgili olarak, model doğru bir şekilde belirtilmişse ve hem OLS hem de ML uygulanabilirse, her ikisi de iyi çalışmalıdır. Yanlış tanımlamalar altında işler ters gitme eğilimindedir.
Richard Hardy

1
Açıklamakta kötü olmalıyım ve bu durumda alternatif bir açıklama yapmakta zorlanıyorum ... regresyonu yapmanız gerekiyor ve gözlemlemiyorsunuz . O zaman regresyonu yönetmenin bir yolu yok. Ana nokta budur. OLS değişkenlerin eksik olmasına izin vermez. Bununla birlikte, eksik değişkenleri olan bazı yapılar ML kullanılarak geri kazanılabilir ve böyle bir yapının bir örneği MA modelidir. ( regresyonu sadece OLS için değil , gözlenmediğinde ML tahmini için de mümkün değildir .)x y = β 0 + β 1 x + ε xy=β0+β1x+εxy=β0+β1x+εx
Richard Hardy

5

Bu harika bir soru. ARIMA modelleri ile çoklu doğrusal regresyon arasındaki gerçek fark hata yapınızda yatmaktadır. Çoklu değişken regresyon modelindeki bağımsız değişkenleri, @IrishStat'ın söylediği gibi zaman serisi verilerinize uyacak şekilde değiştirebilirsiniz. Ancak bundan sonra, doğru katsayı ve test sonuçlarını elde etmek için ARIMA hatalarını çoklu regresyon modelinize dahil etmeniz gerekir. Bu konuda harika bir ücretsiz kitap: https://www.otexts.org/fpp/9/1 . ARIMA ve çoklu regresyon modellerini birleştirmeyi tartışan bölümü bağladım.


1

Güzel soru, aslında her ikisini de Veri Bilimcisi olarak yaptım. Zaman serisi modellerinin oluşturulması kolaydır (R'deki tahmin paketi, 5 saniyede daha az sürede bir tane oluşturmanıza olanak tanır), regresyon modelleriyle aynı veya daha doğru vb. Zaman serilerinin felsefi etkileri de vardır, hiçbir şey bilmeden tahmin edebiliyorsanız, bu ne anlama geliyor?

Darlington ile ilgileniyorum. 1) "Regresyon çok daha esnek ve güçlü, daha iyi modeller üretiyor. Bu nokta çalışma boyunca çok sayıda noktada geliştirildi."

Hayır, tam tersi. Regresyon modelleri, zaman serisi modellerinden çok daha fazla varsayım yapar. Varsayımlar ne kadar az olursa, depreme (rejim değişikliği) dayanma olasılığı da o kadar yüksektir. Ayrıca, zaman serisi modelleri ani kaymalara daha hızlı yanıt verir.

2) "Regresyona hakim olmak, en azından diğer alanlarda regresyon kullanımına zaten aşina olanlar için ARIMA'dan çok daha kolaydır." Bu dairesel bir akıl yürütmedir.

3) "Regresyon, mümkünse sonuç vermesi garanti edilen" kapalı "bir hesaplama algoritması kullanır, ARIMA ve diğer birçok yöntem de çoğu zaman bir çözüme ulaşamayan yinelemeli algoritmalar kullanır. Sık sık ARIMA yöntemini gördüm" msgstr "regresyon yöntemine hiçbir problem vermeyen veriler."

Regresyon size bir cevap veriyor, ama doğru cevap mı? Doğrusal regresyon ve makine öğrenme modelleri oluşturursam ve hepsi aynı sonuca varırsa, bu ne anlama geliyor?

Özetle, evet regresyon ve zaman serileri aynı soruya cevap verebilir ve teknik olarak zaman serileri teknik olarak regresyon (oto-regresyon da olsa). Zaman serisi modelleri, regresyon modellerinden daha az karmaşık ve dolayısıyla daha sağlamdır. Uzmanlaşmayı düşünüyorsanız, TS modelleri tahmin konusunda uzmanlaşırken, regresyon anlama konusunda uzmanlaşmıştır. Açıklamak veya tahmin etmek isteyip istemediğinize bağlıdır.


1
"Zaman serisi modelleri regresyon modellerinden daha az karmaşık ve bu nedenle daha sağlamdır" .... Söylemek istediğiniz şey "ARIMA modelleri regresyon modellerinden daha az karmaşık ve dolayısıyla daha sağlamdır". ARIMA ve regresyonu birleştirmek Transfer Fonksiyonu Modelleri olarak adlandırılır ... o zaman hem anlayış (regresyon) hem de bilinmeyen / belirtilmemiş arka plan faktörlerini (ARIMA) birleştiren akıllıca bir seçimdir.
IrishStat

2
@IrishStat Merhaba Bay Reilly, burada stackexchange'teki birkaç mesaja cevaplarınızı okudum ve Autobox'taki birçok makaleyi ve PSU zaman serisi kursunun bağlantılarını da okudum, ancak yine de bilmiyorum gecikmeli değişkenlerin ve gerekirse gecikmeli hata terimlerinin kullanımı ile doğrusal bir regresyonun (OLS kullanarak) neden (veya varsa) işe yaramadığını
Miguel M.

@IrishStat çalışmıyor OLS yöntemi mi?
Miguel M.

1
IrishStat sizin amacınızı genişletmek, hedef Granger nedensellik olacaktır. Örneğin, bir katsayı istatistiksel olarak anlamlı olsa bile, tahmin doğruluğunu artırmada mutlaka önemli olmayabilir. Araştırmamda, regresyon modellerinin (doğrusal, kement, vb.), Şeylerin gerçekte olduğundan daha önemli olduğunu söyleme eğiliminde olduğunu bulurken, rastgele orman onları düşürmeye ve gerçek kolları tespit etmeye eğilimlidir. Ayrıca, rastgele orman, doğrusal modellerle aynı örnek doğruluğu dışındadır. Tek dezavantajı, katsayıların gerçekte ne olduğunu söyleyememenizdir.
Gizli Markov Modeli

2
@MiguelM. Kesinlikle işe yarayabilir, çünkü bir Transfer Fonksiyonu, belki de ampirik olarak tespit edilen seviye değişimleri / zaman eğilimleri / mevsimsel darbeler dahil olmak üzere, polinom dağıtılmış bir Lag modeli olduğu için, darbeler (bir zaman anomalileri) için ayarlama yaparken bence birincil fark, tanımlama ve model revizyon stratejilerine giden yol
IrishStat

0

Transfer fonksiyonları ve çoklu doğrusal regresyon (normal kullanımında) arasındaki en derin farkın amaçlarında yattığını düşünürken, çoklu regresyonlar bağımlı değişkenin ana nedensel gözlemlenebilir belirleyicilerini bulmak için yönlendirilirken transfer fonksiyonları sadece bir bağımlı üzerindeki etkiyi tahmin etmek ister belirli bir eksojen değişkenin varyasyonunun değişkeni ... Özetle, çoklu regresyon, çok özel etkileri tahmin etmek için kapsamlı bir açıklama ve transfer fonksiyonuna yöneliktir ...


Bunun doğru olduğunu düşünmüyorum, çünkü her iki yöntem de aslında yorumlanabilen katsayılar veriyor. Ayrıca, transfer fonksiyonları büyük ölçüde nedensel analize dayanır ve aslında çoklu doğrusal regresyondan ayırt etmede daha iyidir. Ayrıca, bu yazı bu iki yöntem arasındaki mekanik / metodolojik farklılıkları sormaktadır
Miguel M.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.