Kısa zaman serileri modellemeye değer mi?


14

İşte bir bağlam. İki çevresel değişkenin (sıcaklık, besin seviyesi) 11 yıllık bir süre içinde bir yanıt değişkeninin ortalama değerini nasıl etkilediğini belirlemekle ilgileniyorum. Her yıl 100 binden fazla lokasyondan veri var.

Amaç, 11 yıllık bir süre boyunca, cevap değişkenlerinin ortalama değerinin çevresel değişkenlerdeki değişikliklere yanıt verip vermediğini belirlemektir (örn. Daha sıcak sıcaklık + daha fazla besin = daha fazla tepki =).

Ne yazık ki, yanıt ortalama değer olduğu için (ortalamaya bakmadan, sadece düzenli yıllık değişimler sinyali değiştirecektir), regresyon 2 açıklayıcı değişkenle 11 veri noktası (yılda 1 ortalama değer) olacaktır. Benim için, veri kümesinin çok küçük olması (ilişki süper güçlü olmadığı sürece nominal 40 noktayı / değişkeni bile karşılamıyorsa), doğrusal bir pozitif regresyonun bile anlamlı kabul edilmesi zor olacaktır.

Bu varsayımı yapmaya hakkım var mı? Biri benim eksik olabileceğim başka düşünceler / perspektifler sunabilir mi?

Not: Bazı uyarılar: Ek yıllar beklemeden daha fazla veri almanın bir yolu yoktur. Mevcut veriler gerçekten çalışmak zorunda olduğumuz şeydir.


Verileri çizmeyi denediniz mi? Çevresel değişkenleriniz ile yanıt değişkeniniz arasındaki korelasyon gücünün cevabı etkileyeceğini söyleyebilirim.
rm999

" Her yıl 100 bin konumdan fazla veri var. " Tüm lokasyonları mı yoksa bunlara dayalı ortalama değeri mi gözlemliyorsunuz? Evet ise, lineer bağlamda önerilen @crayola gibi panel veri modellerine gidebilirsiniz. @GaBorgulya'nın belirttiği gibi bazı özel ekolojik modeller, parametrelerin tahmin etmek yerine kalibre etmesi için çok daha az bilgi gerektirebilir.
Dmitrij Celov

Yanıtlar:


8

Az sayıda veri noktası, verilerinize ne tür modeller sığabileceğinizi sınırlar. Ancak, modellemeye başlamanın hiçbir anlamı olmayacağı anlamına gelmez. Birkaç veriyle, ancak efektler güçlü ve dağılım zayıfsa ilişkilendirmeleri algılayabilirsiniz.

Verilerinize ne tür bir model uyduğunu başka bir soru. Başlıkta 'regresyon' kelimesini kullandınız. Model, fenomen hakkında bildiklerinizi bir dereceye kadar yansıtmalıdır. Bu ekolojik bir ortam gibi görünüyor, bu nedenle bir önceki yıl da etkili olabilir.


4

11 puandan daha az ekolojik veri seti gördüm, bu yüzden çok dikkatli olursanız, sınırlı verilerinizle sınırlı sonuçlar çıkarabilirsiniz.

Deneysel tasarımınızın parametreleri göz önüne alındığında, ne kadar küçük bir etki algılayabileceğinizi belirlemek için bir güç analizi de yapabilirsiniz.

Dikkatli bir analiz yaparsanız yılda ekstra varyasyonu da atmanız gerekmeyebilir



4

Verileri temel olarak modellemek (özellikle zaman serileri için), ilgili olguyu yakalamak için yeterli sıklıkta veri topladığınızı varsayar. En basit örnek sinüs dalgası içindir - eğer n bir tamsayı olan n * pi frekansında veri topluyorsanız, sıfırlardan başka bir şey görmezsiniz ve sinüzoidal paterni tamamen özlersiniz. Örnekleme teorisi hakkında verilerin ne sıklıkta toplanması gerektiğini tartışan makaleler vardır.


3

Bu biti anladığımdan emin değilim: "Ne yazık ki, yanıt ortalama değer olduğundan (ortalamaya bakmadan, sadece düzenli yıllık değişimler sinyali değiştirecektir)"

Dikkatli modelleme ile bunu panel verisi olarak modelleyerek çok şey kazanabilirsiniz. Verilerinizin uzamsal kapsamına bağlı olarak, veri noktalarınızın belirli bir yıl içinde maruz kaldığı sıcaklıklarda büyük farklılıklar olabilir. Tüm bu varyasyonların ortalamasının alınması maliyetli görünmektedir.


3

Testin geçerliliğinin veri noktalarının sayısıyla daha az, doğru modele sahip olduğunuz varsayımının geçerliliği ile daha fazla ilgisi olduğunu söyleyebilirim.

Örneğin, standart bir eğri oluşturmak için kullanılan regresyon analizi sadece 3 standarda (düşük, med ve yüksek) dayanabilir, ancak sonuç noktalar arasında doğrusal olduğuna dair güçlü kanıtlar bulunduğundan, son derece geçerlidir.

Öte yandan, verilere yanlış model uygulanırsa 1000'lerce veri noktası içeren bir gerileme bile kusurlu olacaktır.

İlk durumda, model tahminleri ile gerçek veriler arasındaki herhangi bir değişiklik rastgele hatadan kaynaklanır. İkinci durumda, model tahminleri ile gerçek veriler arasındaki bazı değişiklikler yanlış modeli seçmekten kaynaklanan yanlılıktan kaynaklanmaktadır.


1

Bir modeli tanımlamak için gereken gözlem sayısı, verilerdeki sinyalin gürültüye oranına ve modelin şekline bağlıdır. Bana 1, 2, 3, 4, 5, 6,7,8, tahmin edeceğim .... Box-Jenkins model tanımlaması, temel Genel Terimi " sayısal zeka "yı çocuklara veriyoruz. Sinyal güçlü ise, daha az gözleme ihtiyacımız var ve bunun tersi de geçerlidir. Gözlemlenen frekans olası bir "mevsimsel yapı" öneriyorsa, bu fenomenin tekrarlanması gerekir, örneğin en azından 3 mevsim (tercihen daha fazla), çıkarmak için bir kural olarak (bunu temel tanımlayıcı istatistiklerden (acf / pacf) tanımlayın).


-1

Belki zaman dizinizi doğrusal bir denklem sistemi olarak ele alıp Gauss ortadan kaldırarak çözmeyi deneyebilirsiniz. Elbette bu durumda kendinizi mevcut verilerle sınırlandırıyorsunuz, ancak ödemeniz gereken tek fiyat bu.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.