Toplama altında hangi istatistikler korunur?


12

Çok fazla gürültüye sahip uzun, yüksek çözünürlüklü bir zaman serimiz varsa, neler olduğunu daha iyi anlamak ve bazılarını etkili bir şekilde kaldırmak için verileri daha düşük bir çözünürlüğe (örneğin günlük / aylık değerler) toplamak genellikle mantıklıdır. gürültü.

Daha sonra bir de dahil olmak üzere toplu veri bazı istatistikleri geçerli en az bir kağıt seen , ayrı değişken bir doğrusal regresyon. Bu geçerli mi? Ortalama sürecinin, gürültünün azalması nedeniyle sonucu adil bir şekilde değiştireceğini düşünürdüm.r2

Genel olarak, bazı istatistikler toplu zaman serisi verilerine uygulanabilir mi, diğerleri uygulanamaz mı? Öyleyse hangileri? Doğrusal kombinasyonlar olanlar, belki?


İlgili, ekolojik yanlışlığa bakınız .
Andy W

1
@cbeleites'in yorumuyla ilgili olarak, burada teorik bir cevap olduğunu düşünüyorum - doğrusal kombinasyonların korunduğuna dair öneriniz genişliyor. Bununla birlikte, pratik uygulama terimleriyle, bir yaklaşımın geçerliliği hakkında genel bir sonuç çıkarmak çok zordur ve özel bir örnek olması gerekecektir.
Jonathan

Yanıtlar:


6

Başlıkta olduğu gibi soru, yararlı bir şekilde yanıtlanamayacak kadar geniştir, muhtemelen hem toplama yöntemine hem de söz konusu istatistiğe bağlı olacağı için daha fazladır.

  • Bu, "ortalama" için de geçerli olacaktır: sinyal şeklini ve yoğunluğunu korumaya mı çalışıyorsunuz (örn. Savitzky-Golay filtreleri) veya sinyalin altındaki alanı korumaya mı çalışıyorsunuz (örn. Lös)?

  • Gürültü ile ilgili istatistikler açık bir şekilde etkilenir: bu genellikle toplamanın amacıdır .

Daha sonra toplu verilere bazı istatistikler uygulayan en az bir makale gördüm [...] Bu geçerli mi? Ortalama sürecinin, gürültünün azalması nedeniyle sonucu adil bir şekilde değiştireceğini düşünürdüm.

Bu değişiklik büyük olasılıkla kümelenmenin amacıdır .

Genel olarak, verilerinize birçok şey yapmanıza izin verilir, ancak

  • ne yaptığını söyle (ve tercihen neden yaptığını da)
  • elde edilen modelin kalitesini göster (bağımsız verilerle test)


n


5

YtXτm

Yt=α+βX¯t+ut,(1)

X¯t=1mh=0m1Xtmh.

tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

ile

Xt(w)=h=1m1whXtmh.

whwh=g(h,α)gα

Model (2) modeli (1) iç içe yerleştirir, böylece olduğu hipotezini test etmek mümkündürwh=1m

Regresyon olmayan bir ayarda, toplamanın zaman serisinin özelliklerini değiştirebileceğini gösteren sonuçlar vardır. Örneğin, kısa süreli belleğe sahip AR (1) süreçlerini bir araya getirirseniz (zaman serisinin iki gözlemi arasındaki korelasyon, aralarındaki mesafe arttığında hızla ölür), uzun süreli belleğe sahip bir işlem alabilirsiniz.

Yani cevabı özetlemek gerekirse, birleştirilmiş verilere istatistik uygulanmasının geçerliliği istatistiksel bir sorudur. Modele bağlı olarak, geçerli bir uygulama olup olmadığına dair bir hipotez oluşturabilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.