Zorlu bir veri seti için hangi model? (çok fazla yuvaya sahip yüzlerce zaman serisi)


9

Analiz etmek için oldukça karmaşık bir veri setim var ve bunun için iyi bir çözüm bulamıyorum.

Işte burada:

1. ham veri aslında şarkı kayıtları böcek. Her şarkı birkaç parçadan ve her parça alt birimlerden oluşur. Tüm bireyler 5 dakika boyunca kaydedildi. Seri çekim sayısı ve kayıttaki konumları bireyler arasında ve seri çekim başına alt birim sayısı arasında çok farklı olabilir.

2. Her alt birimin taşıyıcı frekansına (temel frekans) sahibim ve analiz etmek istediğim şey bu.

Benim sorunlarım:

1. Bir patlama içindeki frekanslar açıkça bağımsız değildir (oldukça kararlı olmasına rağmen, n-1 alt-biriminin frekansı n-alt birim üzerinde bir etkiye sahip olacaktır).

2. Kayıtlar ayrıca bir kayıt içinde bağımsız değildir.

3. Frekans zamanla düştükçe daha az bağımsızdırlar (kişi şarkı söylemekten bıkar, böylece şarkının frekansı azalır ve azalır). Düşüş doğrusal görünüyor .

4. Yuvalama = İki A ve B konumu için 3 çoğaltılmış popülasyonum var. Yani A1, A2, A3 ve B1, B2, B3 var.

Ne yapmak istiyorum:

1. İki konumum arasındaki frekans farkını karakterize edin (istatistiksel olarak test edin)

2. İki konum arasındaki frekans düşüşünü karakterize edin (bunlardan birinde daha hızlı düşüp düşmediğine bakın)

Nasıl yapılır:

Bu yüzden yardıma ihtiyacım var: Bilmiyorum. Benim durumum, genellikle birlikte görülmeyen sorunları birleştiriyor gibi görünüyor. Karma modeller, GAM, ARIMA, rastgele ve sabit efektler hakkında okudum, ancak bunu yapmanın en iyi yolundan gerçekten emin olamıyorum. Yine de grafiğini çizdiğimde (frekans ~ alt birim numarası n ), iki konum arasındaki fark çok açıktır. Ayrıca sıcaklık (frekansı daha yüksek yapar) gibi diğer değişkenleri de hesaba katmam gerekiyor.

Hakkında düşündüm:

  • Çoğaltma içindeki bireyleri iç içe yerleştirme, çoğaltmayı konumun içine yerleştirme (tek tek / çoğaltma / konum).

  • Rastgele bir 'seri çekim' efekti kullanın, bu yüzden her seri çekimdeki değişkenliği göz önünde bulundururum.

  • Frekans düşüşünü ölçmek için sabit bir 'kayıt konumu' efekti kullanın (aslında doğrusal olduğunu umarak).

Doğru olur mu?

Bu tür bir senaryo için kullanabileceğim özel bir model var mı?


Bu siteye hoş geldiniz, Joe. Gönderinizi imzalamanıza gerek yok, adınız her zaman gravatarınızın altında görünecek :)
chl

Tamam, teşekkürler! Çok güzel bir web sitesi, çok iyi yapılmış.
Joe

"Bireyleri çoğaltma içinde olanların içine yerleştirmek ve çoğaltmayı konumun içine yerleştirmek (bireysel / çoğaltma / konum)", iç içe olmayan formlara kıyasla iyi bir fikir gibi görünür. Altı alt popülasyonunuzun LOESS'i neye benziyor?
Fr.

1
Cevaplarınız için çok teşekkür ederim, gerçekten takdir ediyorum. Uzun zaman aldı, ama bu (kanlı) veri kümesini analiz etmeyi başardım. Sanırım çok hırslıydım, her şeyi aynı anda modellemek istiyordum. Bu yüzden, her problem için (ortalama frekans farkı, frekanstaki artış, vb.) Birkaç modda işe ayrıldım. Sonuç: bazen işi bölmek daha iyidir!
Joe

Yanıtlar:


2

Bu, yararlı bulabileceğiniz bazı genel öneriler, bir tariften daha fazla bir yol haritası.

  • İçgüdüm bir Bayes hiyerarşik modeli oluşturmak olacaktır, çünkü bu yinelemeli model gelişimine katkıda bulunur - peşinde olduğunuz tüm çan ve ıslıklara sahip mevcut bir model bulacağınızı sanmıyorum. Ama bu hipotez testini zorlaştırıyor, hipotez testinin sizin için ne kadar gerekli olduğunu bilmiyorum.
  • Böceklerin nasıl davrandığına dair kafanızda küçük bir gayri resmi model var gibi görünüyor; "yorulmak" gibi şeyler söylüyorsunuz ve muhtemelen hayvanın daha fazla enerjiye sahip olması nedeniyle sıcaklığın frekansı yükselttiğini biliyorsunuz. Böceklerin şarkılarını nasıl yaptıkları konusunda aklınızda küçük bir üretken model var gibi görünüyor.
  • Sorun "tek seferde" modellemek için çok karmaşık geliyor. Bence parça parça bir şey yapmak zorunda kalacaksın. Bazı "güçlü sadeleştirme varsayımları" ile başlayacağım - yani, veri kümesinin karmaşıklığının çoğunu, işe yarayan basit bir modeliniz olduğunda daha sonra eklemek için bir planla atın.

Başlamak için, alt ünite frekanslarını bir seri çekim temelinde ön işleme (ortalama frekans, frekans eğilimi) çifti gibi bir şeye ön işlem yapmak gibi bir şey yapardım - bunu OLS ile yapın ve sadece frekans ortalamasını ve trendini modelleyin alt birimlerinden ziyade bir patlama. Veya alt ünitelerin sayısı böceğin ne kadar yorulduğuyla ilgiliyse (ortalama, eğilim, alt birimlerin sayısı) yapabilirsiniz. Daha sonra, bir patlamanın ortalama ve eğilim dağılımının, kaydın ortalaması, trendi ile belirlendiği ve bu da yerin ortalama, trendiyle belirlendiği bir Bayes hiyerarşik modeli oluşturun.

Ardından sıcaklığı, kayıt ortalaması / trendi için bir faktör olarak ekleyin.

Bu basit model, sıcaklık ve konum tarafından belirlenen bir kayıtta ayrı ayrı patlamaların ortalamasını ve eğilimini görmenize izin vermelidir. Deneyin ve çalışmasını sağlayın.

Daha sonra, konum ve kayıt tarafından belirlenen bir değişken olarak ekleyerek, patlamaların ortalama frekansı (veya patlamaların arasında sessiz zamana bölünerek eğilim) arasındaki farkı tahmin etmeye çalışacağım. Bir sonraki adım, bir kayıt içindeki patlama ortalamasının bir AR modelidir.

Patlamaların doğası hakkında bazı öncelikler ve çok güçlü varsayımlar göz önüne alındığında (tüm bilgilerin ortalama ve trendle verildiği), bu temel model size şunları söyleyecektir:

  • bir patlamanın lokasyona ve sıcaklığa göre farklı bir lokasyonun ortalama frekansı nasıl
  • patlama eğilimi trendi lokasyona ve temp'a göre nasıl farklı?
  • dış patlama eğilimi, konuma ve geçici olarak yere göre nasıl farklıdır?

Çalışmak için böyle bir şey elde ettikten sonra, alt birimleri kendileri modellemek ve orijinal OLS tahminini atmak zamanı olabilir. Ne tür zaman serisi modellerinin uygun olabileceği hakkında bir fikir edinmek ve zaman serisi modelinin parametrelerini (ortalama, eğilim) çiftleri yerine modellemek için bu noktadaki verilere bakarım.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.