Boyuna veriler: zaman serileri, tekrarlanan ölçümler veya başka bir şey?


10

Düz İngilizce: Çoklu regresyon veya ANOVA modelim var, ancak her birey için yanıt değişkeni zamanın eğrisel bir fonksiyonudur.

  • Eğrilerin şekillerindeki veya dikey ofsetlerindeki önemli farklılıklardan hangi sağ taraf değişkenlerinden hangisinin sorumlu olduğunu nasıl anlayabilirim?
  • Bu bir zaman serisi problemi mi, tekrarlanan önlemler problemi mi yoksa tamamen başka bir şey mi?
  • Bu tür verileri analiz etmek için en iyi uygulamalar nelerdir (tercihen R, ancak diğer yazılımları kullanmaya açıkım)?

Daha kesin bir ifadeyle: Diyelim ki ama aslında Sayısal değişken olarak kaydedilen birçok zaman noktasında tek tek . Verilerin , her bir birey için nin dikey ofseti, şekli veya sıklığı (döngüsel durumda) önemli ölçüde değişkenlere bağlı olabilen kuadratik veya döngüsel bir zaman fonksiyonu olduğunu gösterir. Değişkenler zamanla değişmez - yani, bireyin veri toplama süresi boyunca sabit bir vücut ağırlığı veya tedavi grubu vardır.y i j k k t y i j k tyijk=β0+β1xi+β2xj+β3xixj+ϵkyijkktyijkt

Şimdiye kadar aşağıdaki Ryaklaşımları denedim :

  1. Manova

    Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); 
    

    ... YTsütunları zaman noktaları olan bir matris, bu örnekte 10 tanesi, ancak gerçek verilerde çok daha fazlası.

    Sorun: Bu, zamanı bir faktör olarak ele alır, ancak zaman noktaları her bir birey için tam olarak eşleşmez. Ayrıca, örnek boyutuna göre birçoğu vardır, böylece model doygun hale gelir. Yanıt değişkeninin zaman içindeki şekli göz ardı edilir.

  2. Karışık model (Pinheiro ve Bates'de olduğu gibi, S ve S-Plus'ta Karışık Efekt Modelleri )

    lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, 
        random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
    

    ... IDverileri bireye göre gruplayan bir faktör nerede . Bu örnekte yanıt zaman içinde döngüseldir, ancak bunun yerine ikinci dereceden terimler veya zamanın diğer işlevleri olabilir.

    Sorun: Her zaman diliminin gerekli olup olmadığından (özellikle ikinci dereceden terimler için) ve hangilerinin hangi değişkenlerden etkilendiğinden emin değilim.

    • stepAIC()Bunları seçmek için iyi bir yöntem var mı ?
    • Zamana bağlı bir terimi kaldırırsa, aynı zamanda randomargümandan da kaldırır mı?
    • corEXP()Bağımsız correlationdeğişkente bir formül alan bir otokorelasyon işlevi (örneğin ) de kullanırsam, bu formülü içerideki veya sadece corEXP()aynı formül için yapmalıyım ? random~1|ID
    • nlmePaket nadiren zaman serisi dışında Pinheiro ve Bates bağlamında belirtilen ... iyi bu soruna uygun sayılmaz?
  3. Her bireye kuadratik veya trigonometrik bir model yerleştirmek ve daha sonra her katsayıyı çoklu regresyon veya ANOVA için bir yanıt değişkeni olarak kullanmak.

    Sorun: Çoklu karşılaştırma düzeltmesi gerekiyor. Beni bir şeye baktığımdan şüphelenen başka problemler düşünemiyorum.

  4. Bu sitede daha önce önerildiği gibi ( Birden fazla öngörücüye sahip bir zaman serisi regresyonu için terim nedir? ), ARIMAX ve transfer fonksiyonu / dinamik regresyon modelleri vardır .

    Sorun: ARMA tabanlı modeller ayrık zamanlar alıyor, değil mi? Dinamik gerilemeye gelince, bugün ilk kez duydum, ama sonuçta ortaya çıkmayabilecek yeni bir yönteme girmeden önce, bunu daha önce yapan insanlara tavsiye için sormanın ihtiyatlı olacağını düşündüm.


5
@ f1r3br4and Verilerinizin tam olarak ne olduğu hakkında bazı ayrıntılar eklemek yardımcı olabilir mi? Yani, kaç vaka kaç zaman noktasında ölçüldü? Davalar farklı koşullarda mı? ya da farklı bir şey?
Jeromy Anglim

Hesabınızı kaybettiniz mi? Öyleyse, lütfen birleştirilecek öğeyi kolayca bulabilmem için, muhtemelen Gmail adresinizle yenisini kaydedin.

1
@ f-tussel ve @ jeromy-anglim: Veriler, doğal yaşamları boyunca laboratuvar hayvanlarından toplanan ve genellikle genotip, cinsiyet veya beslendikleri diyet türü gibi statik bilgilerle birleştirilen çeşitli invazif olmayan ölçümlerdir. 'Çok' puanla 20'den birkaç yüze demek istiyorum. Analiz etmeye çalıştığım sadece bir veri kümesi değil, aynı zamanda grubumda çok yaygın hale gelen bir veri türünün nasıl analiz edileceğini öğrenmek. Grup içi faktörlere sahip karma modeller yalnızca daha küçük numune boyutları için tavsiye ediliyor mu?
f1r3br4nd

Yanıtlar:


5

Jeromy Anglim'in dediği gibi, her bir birey için sahip olduğunuz zaman noktalarının sayısını bilmek yardımcı olacaktır; "çok" dediğin gibi fonksiyonel analizin uygulanabilir bir alternatif olabileceğini düşünürdüm . R paket fda'yı kontrol etmek ve Ramsay ve Silverman'ın kitabına bakmak isteyebilirsiniz .


Fonksiyonel analiz uzun vadede umut verici geliyor, ancak anlamsız veya önyargılı sonuçlar elde edemediğimden emin olmadan önce oldukça öğrenme eğrisi olacak gibi görünüyor. Bu konuda hızlanırken, daha tanıdık nlmetabanlı yaklaşımlar (OP'deki 2 ve 3 maddeler) en azından şimdilik veriler üzerinde kullanmak için geçerli mi?
f1r3br4nd

2

Başlangıçta bu soruyu ortaya koyduğumdan beri, rastgele engelleme faktörü olarak konularla karışık efekt modellerinin bu soruna pratik bir çözüm olduğu, yani orijinal yazımdaki seçenek # 2 olduğu sonucuna vardım. Eğer randomargümanı ( aynı test deneğinden gelen gözlemleri tanımlar) lmeolarak ayarlanırsa, rastgele bir kesişme modeli yerleştirilir. O zaman rastgele bir eğim ve kesişme modeli takılırsa. Aynı birey içinde değişen değişkenler içeren herhangi bir sağ taraflı formül ve ile arasına yerleştirilebilir , ancak aşırı karmaşık formüller doymuş bir modele ve / veya çeşitli sayısal hatalara neden olur. Bu nedenle, bir olasılık oranı testi kullanılabilir (~1|IDID~TIME|ID~|IDanova(myModel, update(myModel,random=~TIME|ID))) rastgele kesişme modelini rastgele eğim ve kesişme modeliyle veya diğer aday rasgele etki modelleriyle karşılaştırmak. Uyumdaki fark önemli değilse, daha basit modele sadık kalın. Orijinal yazımda rastgele trig işlevlerine girmek benim için aşırı derecede doluydu.

Ortaya koyduğum diğer bir konu da model seçimiydi. İnsanların herhangi bir model seçimini sevmediği görülüyor, ancak kimsenin pratik alternatifleri yok. Açıklayıcı değişkenlerin ne olduğuna ilişkin ve ilgili olmayan verileri toplayan araştırmacının körü körüne inanıyorsanız, genellikle test edilmemiş varsayımlarını körü körüne kabul edersiniz. Olası her bilgi parçasını dikkate alırsanız, genellikle doymuş bir model elde edersiniz. Eğer kolay oldukları için belirli bir modeli ve değişkenleri keyfi olarak seçerseniz, bu sefer kendiniz denenmemiş varsayımları tekrar kabul edeceksiniz.

Yani, özet olarak, tekrarlanan ölçümler için bir lmemodel daha sonra birisinin daha iyi bir fikri olmadığı sürece MASS:::stepAICveya MuMIn:::dredgeve / veya ile kesilen modeller nlme:::anova.lme.

Kimsenin herhangi bir tekrarı olup olmadığını görmek için kabul etmeden önce bir süre kendi kendine cevap vereceğim. Zaman ayırdığınız için teşekkürler ve bunu okuduğunuz için aynı soruya sahipseniz, iyi şanslar ve yarı keşfedilmemiş bölgeye hoş geldiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.