Zaman serisi kümelerinin karşılaştırılması


10

Karşılaştırmak istediğim üç dizi zaman serisi veri var. Yaklaşık 12 günlük 3 ayrı periyotta alınmıştır. Final haftalarında bir üniversite kütüphanesinde alınan ortalama, maksimum ve minimum kafa sayımlarıdır. Saat başı sayımları sürekli olmadığından ortalama, maksimum ve min yapmak zorunda kaldım (bkz . Zaman serisindeki düzenli veri boşlukları ).

Şimdi veri seti şuna benziyor. 12 akşam için, akşam başına bir veri noktası (ortalama, maksimum veya dakika) vardır. Verilerin yalnızca 12 günlük endişe süresinde alındığı 3 dönem vardır. Örneğin, İlkbahar 2010, Güz 2010 ve Mayıs 2011'de her biri 12 puanlık bir kümeye sahiptir. İşte bir örnek grafik:

resim açıklamasını buraya girin

Dönemleri kapladım çünkü kalıpların dönemden döneme nasıl değiştiğini görmek istiyorum. Bununla birlikte, bağlantılı iş parçacığında bana söylendiği gibi, aradaki veri olmadığı için dönemleri kuyruktan başa tokatlamak iyi bir fikir değildir.

Soru şu: Her yarıyıl devam modelini karşılaştırmak için hangi matematiksel tekniği kullanabilirim? Zaman serilerine özel yapmam gereken bir şey var mı, yoksa yüzde farkları alabilir miyim? Amacım bu günlerde kütüphane kullanımının arttığını veya azaldığını söylemek; Göstermek için hangi teknikleri kullanmam gerektiğinden emin değilim.

Yanıtlar:


8

Sabit etkiler ANOVA (veya lineer regresyon eşdeğeri), bu verileri analiz etmek için güçlü bir yöntem ailesi sağlar. Göstermek için, burada ortalama HC başına akşam grafikleriyle tutarlı bir veri kümesi (renk başına bir grafik):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

Bu tabloya countkarşı ANOVA dayve colorüretir:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

model0.0000 gösterir uygun p-değeri son derece önemlidir. day0.0000 p-değeri de önemli boyuttadır: günü değişikliklerine gün algılayabilir. Ancak, color(sömestr) p değeri 0,0011 olarak dikkate alınmamalıdır: günlük değişim için kontrol ettikten sonra bile üç dönem arasında sistematik bir fark tespit edemezsiniz .

Tukey'in HSD ("dürüst anlamlı fark") testi, günlük olarak (dönemden bağımsız olarak) 0.05 düzeyinde aşağıdaki önemli değişiklikleri (diğerleri arasında) tanımlar:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Bu, gözün grafiklerde görebileceklerini doğrular.

Grafikler biraz atladığından, zaman serisi analizinin tüm noktası olan günlük korelasyonları (seri korelasyon) tespit etmenin bir yolu yoktur. Başka bir deyişle, zaman serisi teknikleriyle uğraşmayın: burada daha büyük bir kavrayış sağlayacak kadar veri yok.

Herhangi bir istatistiksel analizin sonuçlarına ne kadar inanılacağı daima merak edilmelidir. Heterosedastisite için çeşitli teşhisler ( Breusch-Pagan testi gibi ) rahatsız edici bir şey göstermez. Kalıntılar çok normal görünmüyor - bazı gruplara karışıyorlar - bu yüzden tüm p değerlerinin bir tuz tanesi ile alınması gerekiyor. Bununla birlikte, makul rehberlik sağlıyor ve grafiklere bakarak elde edebileceğimiz verilerin anlamını ölçmeye yardımcı oluyorlar.

Günlük minimum veya günlük maksimum üzerinde paralel bir analiz yapabilirsiniz. Kılavuz olarak benzer bir grafikle başladığınızdan ve istatistiksel çıktıyı kontrol ettiğinizden emin olun.


+1, basit ama güçlü tekniklerin gösterilmesi için. En merak ediyorum, değerleri grafikten nasıl çıkarmayı başardınız? Bazı yazılımlar mı yoksa kötü davranan öğrenciler için bir ceza mı? :)
mpiktas

1
@mp Grafiğin ekran görüntüsünün üstündeki noktaları sayısallaştırdım, koordinatlarını GIS yazılımı ile çıkardım, koordinatları bir e-tablo ile dönüştürdüm, sonra bir istatistik paketine aktardım. Sadece birkaç dakika sürüyor. Bu yöntem, sahip olduğunuz tek veri bir grafik veya harita biçiminde olduğunda kullanışlı olabilir.
whuber

@whuber Çok güzel! Bunun farkında değildim.
suncoolsu

@whuber 36 bağımsız gözlemle karşılaştırıldığında 3 set 12 otokorelasyonlu okumaya sahip olmanın etkisinin ne olduğunu merak ediyorum. Gerçekten parsellemek için 35 derecelik özgürlüğümüz olmadığını düşünürdüm. Üzerinde düşündüğünüz olasılıklar, merkezi olmayan bir ki-kare değişkeninin merkezi bir ki-kare değişkenine oranı üzerine kuruludur. Burada özlediğim bir şey var mı? Arsadan sayıları çıkarmak için iyi bir iş. Bu konuda bize yardımcı olması için başvurabileceğiniz özel bir program var mı?
IrishStat

1
xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0

0

Sarah, 36 numaranızı (döngü başına 12 değer; 3 döngü) alın ve yarıyıl haftası etkisini yansıtan 11 göstergeyle bir regresyon modeli oluşturun ve ardından artıkların her yerde 0.0 olması veya en azından 0.0'dan istatistiksel olarak önemli ölçüde farklı olmaması. Örneğin, 13. dönemde bir seviye kayması tespit ederseniz, bu, ilk dönem ortalaması, ilk 12 değer) ile son iki dönem ortalaması (son 24 değer) arasında istatistiksel olarak anlamlı bir fark önerebilir. Dönem etkisinin bir haftasının çıkarımını çıkarabilir veya hipotezini test edebilirsiniz. Bu konuda iyi bir zaman serisi paketi sizin için yararlı olabilir. Başarısız olmak, bu analitik arenada yardım sağlayacak birini bulmanız gerekebilir.


1
Bu, iki yönlü ANOVA'nın (döngü başına gün) bir açıklaması ve ardından 11 çift günlük planlı testler gibi geliyor. Sade eski istatistik yazılımlarının kullanımı, özel zaman serisi yazılımlarından daha esnek ve güçlü olacaktır; kesinlikle daha kolay olacak. BTW, endeksler dönemin haftası değil gün (sınav dönemine) şeklindedir.
whuber

ANOVA'yı günlük maksimumları ve minimumları karşılaştırmak için de kullanabilir miyim? Yoksa bu sadece araçlar için mi geçerli?
induvidyul

@Sarah Minima ve maxima için geçerli olabilir. Bununla birlikte, bu istatistikler araçlardan çok daha değişken olma eğilimindedir, bu nedenle zaman içinde veya dönemler arasındaki değişiklikleri tespit etme olasılığınız daha düşüktür. Grafiğiniz, araçların önemli ölçüde farklı olduğunu açıkça ortaya koyuyor. Mümkünse , günün saatini dahil ederek ve günlük ortalamaları yerine orijinal saatlik sayıları kullanarak ANOVA'yı üç yönlü yapın .
whuber

@whuber: Saatlik verileri bir araya getirmenin kullanılabilir olmadığı söylendi, çünkü bunlar sadece sabah 12 ile akşam 6 arasında kaydedildi. Önceki sorumu gör Bir zaman serisindeki düzenli veri boşlukları .
induvidyul

@Sarah Farklı bir şeyden bahsediyorum: bağımlılığı üç faktör açısından modelleyin: dönem (3 tanesi), döneme gün (12 tanesi) ve günün saati (6 tanesi). Saatler arasındaki korelasyonları bile hesaba katabilirsiniz, ancak bu amaçlarınız için gerekli olmayabilir. Ne olursa olsun, ben değil 12 * 24 sayıları bir kesintiye dizi olarak her dönem inceleyen savunan: çok fazla eksik veri vardır.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.