Bir tanesi karesel ve kübik terimlere sahip olabilen açıklayıcı değişkenler arasındaki etkileşimleri nasıl modellemeliyim?


10

İçtenlikle bu soruyu tam olarak cevaplanabilecek şekilde ifade ettiğimi umuyorum - eğer değilse, lütfen bana bildirin ve tekrar deneyeceğim! Ayrıca bu analizler için R kullanacağımı da not etmeliyim.

Benim plant performance (Ys)uyguladığım dört tedaviden etkilendiğini düşündüğüm birkaç önlemim var - flower thinning (X1), fertilization (X2), leaf clipping (X3)ve biased flower thinning (X4). Mümkün olan tüm Y'ler için, N en az 242'dir, bu yüzden numune boyutum büyüktü. Tüm parseller inceltilmeye tabi tutulmuş olsun olmasın, ancak her parsel ayrıca diğer üç tedaviden birine (ve sadece bir) tabi tutuldu (ya da değil - kontrol parselleri de vardı). Bu tasarımın fikri, diğer üç tedavinin inceltmenin etkilerini "maskeleme" veya "geliştirme" yeteneğini test etmekti. Böylece, tasarım gereği, ikincisi üç tedaviler (X2-X4) değil etkileşim biriyle bunlar aşıldığı değildi olabilir başka nedeni, ancak olabilir çiçek incelmesine her etkileşim - ve muhtemelen.

Açık hipotezlerim: 1) çiçeklenme incelmesi önemli olacak ve 2) X1*X2, X1*X3, and X1*X4,çiçek inceltme ve diğer üç tedavi arasındaki etkileşim terimleri de önemli olacaktır. Yani, çiçek incelmesi önemli olmalı, ancak önemli olduğu yollar diğer üç tedavinin yaptığı ile önemli ölçüde değiştirilmelidir.

Tüm bu bilgileri karışık bir modele eklemek istiyorum:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

Ancak bir askıya alma var: İnceltmenin Y üzerindeki etkilerinin doğrusal olmadığına inanmak için iyi bir nedenim var. Muhtemelen ikinci dereceden ama belki de bazı durumlarda kübik. Bunun nedeni, inceltmenin performans üzerindeki etkilerinin, yüksek inceltme seviyelerinde daha hızlı artmasıdır. X1 için kuadratik ve kübik terimler ekleyerek bu doğrusal olmayan ilişkiyi yukarıdaki denklem üzerinden modellemeye çalışırsam, etkileşim koşullarının nasıl modelleneceğinden emin değilim - X1'in olası tüm kombinasyonlarını içermem gerekiyor mu, (X1) ^ 2 ve (X1) ^ 3 * X2, X3 ve X4? Çünkü bu, sahip olduğum veri noktalarının sayısı ile bile tahmin etmeye çalışacak birçok parametre gibi görünüyor ve alacağım sonuçları nasıl yorumlayacağımdan emin değilim. Bununla birlikte, bunun durumu modellemenin temkinli bir yolu olacağını düşünmek için biyolojik bir nedenim yok dedi.

Dolayısıyla, bu sorunun nasıl ele alınacağına dair üç düşüncem var:

  1. Önce, örneğin Y ~ X1 + X1^2 + X^3 + Random effectsinceltme ve Y arasındaki ilişkinin doğrusal, kuadratik veya kübik olup olmadığını anlamak amacıyla daha küçük bir model takın ve ardından ilişkiyi uygun şekilde doğrusallaştırmak için inceltmeyi kare veya küp kökü ile dönüştürün. Oradan, etkileşim terimleri, dönüştürülmüş değişken ile yukarıdaki gibi modellenebilir.
  2. Önemli etkileşimlerin, eğer meydana gelirse, X1 terimlerinden birini (yani yalnızca doğrusal, kuadratik veya kübik terim) etkilediğini varsayın ve etkileşimleri buna göre modelleyin. Bu yaklaşımın anlamlı olup olmadığından bile emin değilim.
  3. Sadece "tam modeli" inceltme terimleri ve yukarıda ele alınan diğer tedaviler arasındaki olası her etkileşim terimine uyun. Ardından, önemsiz etkileşim terimlerini kesin ve sonuçları yorumlamak için grafikler ve diğer teknikleri kullanın.

Varsa, bu yaklaşımlardan hangisi en mantıklıdır ve model seçimiyle değil, hipotez testiyle ilgilendiğim düşünüldüğünde? Özellikle, yukarıdaki # 1 bunu yapmak mantıklı değilse , neden böyle? Bu makaleyi ve bu makaleyi okudum ve benim için ne anlama gelebileceğini sindirmeye çalıştım, ancak daha fazla okuma için herhangi bir kaynak da takdir edilecektir!

Yanıtlar:


7

Bu yaklaşımların hiçbiri düzgün çalışmayacak. Yaklaşım 3. yaklaştı, ama sonra önemsiz terimleri bulacağınızı söylediniz. Bu sorunludur, çünkü eş doğrusallıklar hangi terimlerin kaldırılacağını bulmayı imkansız hale getirir ve tip I hatasını korumak isterseniz hipotez testlerinde bu size yanlış serbestlik dereceleri verecektir.

Etkili örnek büyüklüğü ve sinyaline bağlı olarak: probleminizdeki gürültü oranı, tüm ürün ve ana etki terimlerine sahip bir model takmanızı ve modeli araziler ve "yığın testleri" (ilgili terimlerin çoklu df testleri, yani, genel etkileşim testi, doğrusal olmayan etkileşim testi, ana etki + etkileşim dahil genel etki testi vb.). R rmspaketi, standart tek değişkenli modeller ve uzunlamasına modeller için bunu kolaylaştırırYçok değişkenli normaldir. Misal:

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

Gördüğünüz zaman anovatablo etiketli satırları göreceksiniz All Interactionsbütün model için birleşik etkisini test eden tüm etkileşim açısından. Bireysel bir öngörücü için bu yalnızca öngörücü birden fazla değişkenle etkileşime girdiğinde yararlıdır. printYöntemde anova.rms, tablodaki her satır tarafından hangi parametrelerin sıfıra karşı test edildiğini gösterme seçeneği vardır . Bütün bunlar kategorik ve sürekli tahmin edicilerin karışımlarıyla çalışır.

Sıradan polinomlar kullanmak istiyorsanız polbunun yerine kullanın rcs.

Maalesef karışık efekt modelleri uygulamadım.


1
Bu cevap için teşekkürler. Daha önce hiç spline kullanmadım ama sanırım örneğini anlıyorum. Birkaç takip sorum var, sorun yoksa? 1. Örneğinizde olduğu gibi, anova sonuçlarına bakıldığında, bir faktörün altındaki "Tüm etkileşimler" ile ne kastedilmektedir? Yani, ne ile tüm etkileşimler? 2. Karma bir modelleme yaklaşımında benzer bir yaklaşıma izin verilecek mi? Sanırım rastgele faktörlere ihtiyaç duyuyorum. Örneğiniz, örneğin lme4 ile uyumlu mu? 3. Etkileşen tedavilerin bazıları kategorikse bu işe yarar mı? Örneğin, X2 2 seviyeli bir faktör olsaydı ne olurdu?
Bajcz

2

Bağımlı değişkenler ve öngörücüler arasındaki ilişkilerin işlev biçimlerini değerlendirmek için parametrik olmayan regresyonları kullanma hayranıyım, daha sonra parametrik regresyon modellerini tahmin edeceğim zaman bile. Çoğu zaman doğrusal olmayan ilişkiler bulmuş olsam da, ana etkiler kesinlikle doğrusal olmamış olsa bile, hiçbir zaman doğrusal olmayan bir etkileşim etkileşim terimi bulamadım. Eve götürmem: Etkileşim etkilerinin, tahmin edicileri ile aynı işlevsel formlardan oluşmasına gerek yoktur.


Yani, açıklığa kavuşturmak için, eve götürmeniz, # 2 seçeneğini seçersem, doğrusal X1 terimiyle etkileşim terimlerini güvenle dahil edebileceğim ve "daha yüksek dereceli etkileşim terimleri", örneğin X1 ^ 2 * X3 vb.
Bajcz

1
@Bajcz Şey ... Sanırım iki şey söylüyorum: (1) Sadece doğrusal etkileşimlerle karşılaştığım veri setlerine girmeyi başardım, ama aynı zamanda (2) bakmayı seviyorum (parametrik olmayan regresyonları kullanarak) ve verilerin bana doğrusal olmayan alternatifleri dikkate almam gerekip gerekmediğini söylemesine izin ver. [Doğrusal olmayan terimlere bir model uyumu veya hipotez testi yaklaşımı almak IMO'nun bu konuda yanlış bir yol olduğunu, çünkü bu, örneğin verilerin kendisinden ziyade rasgele bir dizi polinom terimini temel alan çıkarım gerektirir.]
Alexis

3
Etkileşimlerin doğrusal olma ihtimalinin daha yüksek olduğuna inanmak için büyük bir neden yoktur. Doğrusal olmayan etkileşimlerin harika örnekleriyle karşılaştım. "Bakmak" ve "verilerin size bildirmesine izin vermek" fikri, kötü güven aralığı kapsamı sorunları da dahil olmak üzere çıkarım problemleriyle doludur.
Frank Harrell

1
@FrankHarrell Teşekkürler! İlk cümleniz, yukarıdaki yorumda (2) 'de tam olarak karşılaşmaya çalıştığım noktadır (geçmiş deneyimim gelecekte önemli ölçüde değişebilir). OTOH: Verilerin konuşmasına izin vermemek, modelleme varsayımlarının gerçek verilerle ilgili çıkarımlar üzerindeki yapaylıkları hakkındaki çıkarımları ima etmek için harika bir stratejidir.
Alexis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.