Hipotez testi ve zaman serileri için önemi


20

İki popülasyona bakıldığında olağan bir önem testi, mümkünse t-testi, eşleştirilmiş t-testidir. Bu dağılımın normal olduğunu varsayar.

Bir zaman serisi için anlamlılık testi üreten benzer basitleştirici varsayımlar var mı? Özellikle farklı muamele gören oldukça küçük iki fare popülasyonuna sahibiz ve haftada bir kez kilo veriyoruz. Her iki grafik de, bir grafik kesinlikle diğerinin üzerinde olmak üzere, sorunsuz bir şekilde artan işlevleri gösterir. Bu bağlamda "kesinliği" nasıl ölçebiliriz?

Sıfır hipotezi, iki nüfusun ağırlıklarının zaman geçtikçe "aynı şekilde davranması" olmalıdır. Bunu, oldukça az sayıda parametre ile oldukça yaygın olan (normal dağılımlar yaygın olduğu gibi) basit bir model olarak nasıl formüle edebiliriz? Birisi bunu yaptıktan sonra, p-değerlerine benzer bir önemi veya bir şeyi nasıl ölçebiliriz? Her bir çiftin iki popülasyonun her birinden bir temsilcisi olmasıyla, fareleri mümkün olduğunca çok karakteristikle eşleştirmeye ne dersiniz?

Zaman serileri ile ilgili iyi yazılmış ve kolayca anlaşılan bazı kitaplara veya makalelere bir işaretçi memnuniyetle karşılarım. Bir cahil olarak başlıyorum. Yardımın için teşekkürler.

David Epstein


Daha geniş bir ağ oluşturmak isteyebilirsiniz, çünkü bu mutlaka bir zaman serisi sorusu değildir. Gerçekten de, belki de buradaki en temel soru, bir tedavi "bitiş noktası" nı ölçmek için en iyi ya da en azından doğru yolla ilgilidir: belirli bir süre sonra bir popülasyondaki büyüme, zaman içindeki ortalama büyüme oranları, vb. Denemeye başlamadan önce bunu bilmiyorsanız ve aniden büyüme eğrilerindeki tutarlı farklılıkları fark ediyorsanız, doğrulayıcı değil, keşif modunda çalışıyorsunuz ve hipotez testi p değerleri aldatıcı olarak iyi olacaktır.
whuber

Sonuç niteliksel olarak beklendiği gibi ve tek taraflı bir test uygun görünüyor. Zaman serileri hakkında sormamın nedeni, eğer biri sadece son ağırlığı (en alakalı ölçümdür) ölçerse, o zaman tüm bilgileri önceki zaman noktalarından atıyor ve bu yanlış görünüyor.
David Epstein

Haklısın: bu verileri atmak istemiyorsun. Ancak , idealize eğrilerden sapmaların zamansal korelasyonlarının ya kendi çıkarları için ya da iyi tahminlere müdahale edebildikleri için önemli olduğu veri modelleri için zaman serisi teknikleri ön plana çıkmaktadır. Durumunuz bu durumların hiçbirine düşmeyebilir. Daha basit, bilimsel olarak daha anlamlı yöntemler mevcuttur.
whuber

@whuber, farelerin kontrol setinin zaman içindeki ağırlığı bir anlamda "idealize bir eğri" değil mi? Ya da en azından, bu verilere uyan teorik bir model?
naught101

1
Evet, @naught, buna bakmak için makul bir yol. Ancak "eğri", "zaman serileri" ile aynı değildir. Örneğin, lineer regresyon verilere uygun eğriler olarak görülebilir (ve çoğu zaman), ancak veriler ile idealize eğri arasındaki sapmalar arasındaki korelasyon yapısını vurgulayan zaman serisi analizinden ayrıdır.
whuber

Yanıtlar:


1

Ağırlık değişimlerini dinamik bir süreç olarak düşünüyorsanız, bunu yapmanın birçok yolu vardır.

For example, it can be modeled as an integrator x˙(t)=θx(t)+v(t)

x(t)θv(t) is a stochastic disturbance that may affect the weight variation. You could model v(t) as N(0,Q), for a known Q (you can also estimate it).

θθθ1θ2.

For a reference, I can suggest this book.


0

I would suggest identifying an ARIMA model for each mice separately and then review them for similarities and generalization. For example if the first mice has an AR(1) and the second one has an AR(2), the most general (largest) model would be an AR(2). Estimate this model globally i.e. for the combined time series. Compare the error sum of squares for the combined set with the sum of the two individual error sum of squares to generate an F value to test the hypothesis of constant parameters across groups. I you wish you can post your data and I will illustrate this test precisely.

ADDITIONAL COMMENTS:

Since the data set is auto-correlated normality does not apply. If the observations are independent over time then one might apply some of the well-known non-time series methods. IN terms of your request about an easy to read book about time series, I suggest the Wei text by Addison-Wesley. Social scientists will find the non-mathematical approach of Mcleary and Hay (1980) to be more intuitive but lacking rigor.


1
This really doesn't appear to address the fundamental issues. (1) Why is such a model appropriate? (2) Why should each mouse be modeled and not, say, the mean population weights or gains in weights? (3) Why is a test of constant parameters relevant? The question begs for a one-tailed test. Most of the parameters you mention do not appear scientifically relevant, nor do they directly quantify a sense of one graph being consistently above the other. (4) How do you control for possible differences in characteristics of the two populations at the beginning of the experiment?
whuber

:whuber Thetest for constancy of parametersis relevant because you have aset ofcoefficients forthe first group ofreadings formouse 1 & a second set of coefficients for the 2nd mouse.The question is"is there collectively asignificant difference between the coefficients".Now continuing with your comment , since one of the model coefficients might be a constant and if it is then the difference between the coefficients mightbe due tothe constants being statistically different from one another.Note that the underlying ARIMA model maynot necessarily have a constantas it might be a difference model .
IrishStat

1
I think you're partly right, but you need to refine your characterization of the problem. Many of the ARIMA coefficients may be scientifically irrelevant. For instance, if one of them acts like a quadratic term over time, a difference might say something about the shape of the growth curves but that could be of little use. If one chooses coefficients to reflect the experimental endpoint(s) and tests only them, some good might be achieved thereby. In general, though, time series models introduce coefficients (e.g., autocorrelation) unlikely to be of direct scientific interest here.
whuber

whuber: "If one chooses coefficients to reflect the experimental endpoint(s) and tests only them, some good might be achieved thereby" doesn't make much sense to me as it ignores the intermediate points. On the contrary to your comment, the time series mode and it's accompanying coefficients are of significant scientific interest as it characterizes the distribution of readings and converts them to a random process ( the error term ) which is free of autocorrelative structure and then amenable to tests requiring normality. The test I propose requires that assumption to hold.
IrishStat

1
Autocorrelation may be of little importance here. Interest explicitly focuses on the trends: how do the underlying growth curves tend to differ between the two populations? Autocorrelation parameters are nuisance parameters, to be introduced and dealt with only insofar as they might help improve the estimation of those growth curves. The first priority is to adopt a scientific model of the growth, represent that model with parameters that are interpretable and of interest, and estimate them. Automatic application of time series techniques is unlikely to accomplish that.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.