Etkileşim etkilerinin tanımlanmasında en iyi yöntemler nelerdir?


35

Bir modeldeki ( x1:x2veya x1*x2 ... xn-1 * xn) değişkenlerin olası her bir birleşiminin tam anlamıyla test edilmesi dışında . Bağımsız (umarım) değişkenleriniz arasında bir etkileşim olması gerektiğini veya COULD'un var olup olmadığını nasıl anlarsınız?

Etkileşimleri belirlemeye çalışırken en iyi yöntemler nelerdir? Kullanabileceğiniz veya kullanabileceğiniz bir grafik tekniği var mı?


Bize biraz verilerinizden bahseder misiniz? büyüklüğü (cf cevabım cf) ve doğa (cf Gavin'in cevabı)
robin girard

@ Robin: Yataktan kalkması için ona zaman verin, Brandon Toronto'da ;-)
Monica'yı yeniden

1
@Robin, daha genel tutmayı tercih ederim. Cevabınızda verinin büyüklüğü veya niteliği hakkında bir varsayım gerektiren bir yöntem sağlıyorsanız, lütfen belirtin. Karşılaştığım sorun, hepsi farklı veriler içeren bir dizi farklı modelleme görevini içeriyor. Bu yüzden, bu durumda, etkileşim etkilerini tanımlamak için genel öneri arıyorum.
Brandon Bertelsen,

Yanıtlar:


20

Cox ve Wermuth (1996) veya Cox (1984) etkileşimleri tespit etmek için bazı yöntemler tartıştı. Sorun genellikle etkileşim terimlerinin ne kadar genel olması gerektiğidir. Temel olarak, biz (a) her seferinde bir tane olmak üzere tüm ikinci dereceden etkileşim terimlerini sığar (ve test ederiz) ve (b) karşılık gelen p-değerlerini çizeriz (yani, bir fonksiyonu olarak No. terimleri ). Daha sonra fikir, belirli sayıda etkileşim terimlerinin korunup korunmayacağına bakmaktır: Bütün etkileşim terimlerinin null olduğu varsayımı altında, p-değerlerinin dağılımı eşit olmalıdır (ya da eşdeğer olarak, saçılma grafiği üzerindeki noktalar kabaca dağılmalıdır) orijinden geçen bir çizgi).1p

Şimdi, @Gavin’in söylediği gibi, birçok (hepsi olmasa da) etkileşimlerin yerleştirilmesi aşırı uyuşmaya neden olabilir, ancak belli bir anlamda da işe yaramaz (bazı yüksek dereceli etkileşim terimlerinin çoğu zaman hiçbir anlamı yoktur). Bununla birlikte, bunun etkileşimle- rin tespiti değil yorumlanması ile ilgisi vardır ve etkileşimin yorumlanmasında Cox tarafından zaten iyi bir inceleme sağlanmıştır : Bir derleme ( Uygulamalı İstatistiklerin Annals 2007, 1 (2), 371-385) - bu Yukarıda belirtilen referansları içerir. Bakılmaya değer diğer araştırma hatları, genetik çalışmalarda, özellikle grafiksel modellere dayanan yöntemlerde (örneğin, gen ilişkilendirme ağlarında istatistiksel etkileşimli kişilerin belirlenmesi için etkili bir yöntem) epistatik etkilerin incelenmesidir .

Referanslar

  • Cox, DR ve Wermuth, N (1996). Çok Değişkenli Bağımlılıklar: Modeller, Analiz ve Yorumlama . Chapman ve Salon / CRC.
  • Cox, DR (1984). Etkileşim . Uluslararası İstatistiksel Değerlendirme , 52, 1–31.

16

En iyi uygulama , modele uymadan önce ele alınacak problemi düşünmektir . Çalışmakta olduğunuz olguya verilen makul bir model nedir? Değişkenlerin ve etkileşimlerin olası tüm kombinasyonlarını kullanmak bana taranan veri gibi geliyor.


5
Bir açıklama gibi geliyor mu yoksa cevap "düşün" mü?
Robin Girard

2
@Robin - ikincisi. İstatistiksel modellemeyi oldukça zor buluyorum (çok az resmi istatistik eğitimine sahip bir ekolojistim, öğrendiğimlerin çoğu kendi kendine öğretildi) ama önce sorun hakkında düşünürsem, neyin uygun olduğunu tespit edersem çok daha kolay olur. bu modeli oluştur, model teşhisi yap, bunların bilimsel olarak anlamlı olduğu etkileşimleri dene.
Monica'yı eski durumuna getir - G. Simpson

2
@Brandon: Eğer eksik bir etkileşim varsa, kovaryantların değerlerine bağlı olarak artıklarda desenler olacaktır. Artıkları kovaryantlara karşı çizmek, etkileşimin nerede uygun olabileceğini belirlemeye yardımcı olabilir.
Monica'yı eski durumuna getirme - G. Simpson

2
@Brandon: Bu standart model teşhis ve keşif çizim becerileridir. Artıkları, etkileşime dahil olduğunu düşündüğüm değişkenlerin değerlerine göre şartlandırılmış (ggplot2 veya kafes şeklinde) bir etkileşime aday olabileceğini düşündüğüm eş değişkenlerden birine karşı çizerdim. Desen olup olmadığını görmek için her bir panele düzgün bir dokunuş sürtün. Değişkenlerinizin ne tür değişkenler olduğuna bağlı olarak değişir.
Monica'yı eski durumuna getirme - G. Simpson

2
Veri tarama? Verilere yeterince uzun süre işkence yaparsanız, itiraf edecek ...
Meraklı

16

Bir ağaç modelinin yerleştirilmesi (yani R kullanımı), açıklayıcı değişkenler arasındaki karmaşık etkileşimleri belirlemenize yardımcı olacaktır. 30. sayfadaki örneği buradan okuyabilirsiniz .


Çok basit ve çok kullanışlı. Crawley'nin metnine de atıfta bulunduğunuz için teşekkür ederiz!
Brandon Bertelsen,

Dikkatli olun - lineer bir model olarak bu tür etkileşimlere kolayca uyamazsınız. Etkileşimler, ağacın yalnızca bir dalında (veya bir kısmının içinde) gerçekleşir. Bu tür araçları gerçek dünya verilerinde kullanmak için çok fazla veriye ihtiyacınız var .
Monica'yı eski durumuna getirme - G. Simpson

3
@Gavin’in dediği gibi, olası tuzaklardan biri karar ağaçlarının büyük bir örneklem büyüklüğüne ihtiyaç duymaları ve oldukça kararsız olmalarıdır (torbalama ve rastgele ormanların uygulanabilir alternatifler olarak önerilme nedenlerinden biridir). Diğer bir problem ise, ikinci veya daha yüksek dereceden etkileşim etkilerinin olup olmadığı net değil. Eski durumda, CART'ler bir çözüm değildir. Her durumda, herhangi bir çalışmada (gözlemsel veya kontrollü) 6 değişken arasındaki etkileşimin herhangi bir yorumunu çok şüpheli göreceğim.
chl

7

Gavin ile tamamen aynı fikirdeyim ve bu herhangi bir modele uymakla ilgileniyorsanız, araştırılan olguyu yansıtması gerekir. Sorunun herhangi bir ve tüm etkilerini belirleme mantığı ile ilgili (ve Gavin'in veri tarama derken söylediği şey) sınırsız sayıda etkileşime veya değişkenler için ikinci dereceden terimlere veya verilerinize dönüşümlere uymak olabilir. kaçınılmaz olarak verilerinizin bazı varyasyonları için "önemli" etkiler bulur.

Chl'nin belirttiği gibi, bu yüksek dereceli etkileşim etkilerinin aslında herhangi bir yorumu yoktur ve sıklıkla düşük dereceli etkileşimler bile anlam ifade etmez. Nedensel bir model geliştirmekle ilgileniyorsanız, yalnızca modelinize uyması için bağımlı değişken A priori ile ilgili olduğuna inandığınız terimleri içermelisiniz .

Modelinizin öngörücü gücünü artırabileceklerini düşünüyorsanız, modelinize aşırı uyumu önlemek için model seçim teknikleriyle ilgili kaynakları aramalısınız.


7

n

n

Eğer bu varyans oranının anlamlı olup olmadığını bilmek istiyorsanız, modelleme yapmanız gerekecektir (kabaca, modelinizi varyansla karşılaştırmak için serbestlik derecelerinin sayısını bilmeniz gerekir).

Değişkenleriniz ayrık mı yoksa sürekli mi? sınırlı mı, yoksa gerçekten mi (yani siz maksimum değeri bilmiyorsunuz)?


Sobol endekslerinin yönü için teşekkürler. Yine, burada belirli bir cevaptan ziyade general aradığımı belirtmek isterim. Belirli bir veri kümesi hakkında sormuyorum, daha çok farklı setlerle yaşadığım bir sorunu açıklamaya çalışıyorum.
Brandon Bertelsen,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.