Etkileşim, regresyondaki doğrudan etkilerimi ortadan kaldırırsa ne olur?


25

Bir regresyonda, etkileşim terimi, her iki ilişkili doğrudan etkiyi de ortadan kaldırır. Etkileşimi düşürür mü yoksa sonucu bildirir miyim? Etkileşim, orijinal hipotezin bir parçası değildi.


6
Deneysel tasarımınız, araştırma sorunuz ve istatistiksel modeliniz hakkında daha ayrıntılı bilgi verirseniz, muhtemelen daha iyi bir cevap alabilirsiniz.
David LeBauer,

Anket verilerim var, v1 ve v2 beklediğim gibi sonucu tahmin ediyor; ancak, v1 (dikoton) ve v2 (5 grup) arasındaki etkileşim anlamlı değildir - ve (sorum) v1 ve v2'mi doğrudan etkilememi de önemli kılmaktadır. Bunu literatürde bildirmekten bir örnek bulamıyorum.
Jen,

V1: v2 etkileşimi önemli değilse, modele dahil etmenize gerek var mı?
Christopher Aden,


Başka bir olasılık da paradoksal karışıklıktır: Örnek 1: epm.sagepub.com/content/56/3/430.abstract Örnek 2: optimalprediction.com/files/pdf/V1A19.pdf
user31256 09.01

Yanıtlar:


24

Bence bu biraz zor; Tahmin ettiğiniz gibi, burada 'ahlaki bir tehlike' var: etkileşime hiç bakmamış olsaydınız, özgür ve net olursunuz, ama şimdi bıraktığınızda veri tarama şüphesi var.

Anahtar, muhtemelen sadece ana etkilerden sadece etkileşim modeline geçtiğinizde etkilerin anlamındaki bir değişikliktir. 'Ana etkiler' için elde ettiğiniz şey, tedavilerinizin ve kontrastlarınızın nasıl kodlandığına çok bağlıdır. R'de varsayılan tedavidir; temel seviyeler olarak ilk faktör seviyelerine (farklı şekilde kodlama yolundan çıkmazsanız, alfabetik sıradaki ilk isimleri olanlara) olanlarla kontrasttır.

Diyelim ki (basitlik için), her bir faktör için iki seviyeye, "kontrol" ve "trt" deyin. Etkileşim olmadan, 'v1.trt' parametresinin anlamı (tedavinin R'nin varsayılanı olduğu varsayılırsa) "'v1.control' ile 'v1.trt' grubu arasındaki ortalama fark ''; 'v2.trt' parametresinin anlamı '' v2.control 've' v2.trt 'arasındaki ortalama farktır.

Etkileşimde, 'v1.trt', 'v1.control' grubunda 'v1.control' ve 'v1.trt' arasındaki ortalama farktır ve benzer şekilde 'v2.trt', v2 grupları arasındaki ortalama farktır. 'v1.control' grubu. Bu nedenle, kontrol gruplarının her birinde oldukça küçük bir tedavi etkisine sahipseniz, ancak tedavi gruplarında büyük bir etkiye sahipseniz, ne gördüğünüzü kolayca görebilirsiniz.

Bununla birlikte, anlamlı bir etkileşim terimi olmadan bunu görebilmemin tek yolu , tüm etkilerin oldukça zayıf olmasından kaynaklanıyor (yani, "kaybedilen etki" ile gerçekten ne demek istediğinizi p = 0.06'dan p = 0.04'e gitmiş olmanız) sihirli önem çizgisi boyunca).

Diğer bir olasılık, 'çok fazla serbestlik derecesi kullanıyor olmanızdır' - yani parametre tahminleri aslında çok fazla değişmez, ancak artık hata terimi, başka bir 4 tahmin etmek zorunda kalarak yeterince şişirilir [= (2- 1) * (5-1)] önemli terimlerinizin önemsiz hale geldiği parametreler. Yine, bunu sadece küçük bir veri seti / nispeten zayıf etkiler ile beklerdim.

Olası bir çözüm, her ne kadar hassas olsa da, kontrastları toplamak için hareket etmektir - 'ortalama etkinin' sizin durumunuz için anlamlı olduğuna ikna olmalısınız. En iyisi verilerinizi çizmek ve katsayılara bakmak ve tahmin edilen parametreler açısından neler olduğunu anlamaktır.

Umarım yardımcı olur.


4
Ahlaki bir tehlike yok. Ana etkilerin dahil olan etkileşimle hesaplanması, onsuz yapılan hesaplamadan oldukça farklıdır. Ana etkileri bildirmek için ilave modeli yapmanız ve daha sonra etkileşimi yine ayrı bir modele dahil etmeniz gerekir. Etkileşim içeren modeldeki ana etkileri görmezden gelirsiniz, çünkü bunlar gerçekten ana etki değildirler, diğer tahminin belirli seviyelerindeki etkileridir (etkileşim dahil).
John,

John: Biri, bu mantık ile, ikinci dereceden bir etkileşimi / modüle edici etkiyi değerlendiren bir modelde etkileşim terimini de görmezden gelir (yani, (1) ana etkiler, (2) bu ana etkiler arasındaki etkileşimi ve (3) ikinci dereceden bir terim Ana etkilerden biri ve eğrisel bir etkileşim etkisi için (ölçülü))?
Bento

11

Değişkenlerin uygun şekilde ifade edildiğinden emin misiniz? İki bağımsız değişken ve X 2'yi göz önünde bulundurun . Problem bildirimi formda formda olduğunuzu iddia ediyorX1X2

Y=β0+β12X1X2+ε

Kalıntıların varyansının ile arttığına dair bazı kanıtlar varsa , o zaman daha iyi bir model, bir formu olan çarpma hatasını kullanır.Y

Y=β0+(β12X1X2)δ

Bu yeniden yazılabilir

günlük(Y-β0)=günlük(β12)+günlük(X1)+günlük(X2)+günlük(δ);

yani, değişkenlerinizi formda tekrar ifade ederseniz

η=günlük(Y-β0)ξ1=günlük(X1)ξ2=günlük(X2)ζ=günlük(δ)~N-(0,σ2)

o zaman model doğrusaldır ve muhtemelen homoscedastik kalıntıları vardır:

η=γ0+γ1ξ1+γ2ξ2+ζ,

γ1γ2

β0Y

β0β0

Y=(θ1+X1)(θ2+X2)+ε

θ1θ2=β0θ1θ2θ1X2θ2X1ε

Bu analiz, bazı uygulamalarda bile muhtemel olsa bile, tek etkilerin etkileşimler olarak göründüğü bir modele sahip olmanın nasıl mümkün olduğunu göstermektedir. Bu değişkenler (bağımsız, bağımlı veya her ikisi) size uygun olmayan bir formda sunulduğunda ve logaritmaları modelleme için daha etkili bir hedef olduğunda ortaya çıkar. Değişkenlerin ve ilk artıkların dağılımları, durumun böyle olup olmadığını belirlemek için gerekli olan ipuçlarını sağlar: Değişkenlerin eğri dağılımları ve artıkların heterosistemikliği (özellikle öngörülen değerlerle kabaca orantılı değişkenlere sahip) göstergelerdir.


Hmmm. Tüm bunlar mantıklı ama benim çözümümden daha karmaşık görünüyor (asıl soru hakkındaki yorumlar, tahmincilerin her ikisinin de kategorik olduğunu gösteriyor). Fakat her zamanki gibi, cevap “verilere bak” (veya artıklar).
Ben Bolker

1
@ Kabul ediyorum ama “daha ​​karmaşık” algısının nereden geldiğini anlayamadım, çünkü tek değişkenli dağılımların analizi ve artıkların geçici sonrası analizi herhangi bir regresyon egzersizinde esastır. Burada gereken tek ekstra iş bu analizlerin ne anlama geldiğini düşünmektir.
whuber

1
Belki de "daha karmaşık" derken, "Demek istediğim" Tecrübelerime göre, cevabımda bahsettiğim sorunları (kontrast kodlaması) bahsettiğimden daha sık ortaya çıktığını gördüm (katkı maddesi hariç) "- ama bu gerçekten bir Dünya hakkında değil, birlikte çalıştığım veri türleri / insanlar hakkında açıklama.
Ben Bolker

5

Y=β0+β1X1+β2X2+β3(X1X2)=(b0+b2X2)+(b1+b3X2)X1

Bu, tipik olarak, her ikisi de orijinal değişkenlerle güçlü bir şekilde ilişkili olacağından, tipik olarak yüksek çoklu doğrusallığa neden olur. Çoklu doğrusal bağlantıda, bireysel parametre tahminleri, sizin durumunuzdaki gibi diğer değişkenlerin dikkate alındığına bağlıdır. Bir karşı ölçü olarak, değişkenlerin merkezlenmesi, etkileşim göz önüne alındığında genellikle çoklu doğrusallığı azaltır.

Kategorik kestiricilere sahip olduğunuz, ancak "ANOVA" yerine "regresyon" terimini kullandığınız için bu durumun doğrudan sizin için geçerli olup olmadığından emin değilim. Tabii ki ikinci durum esasen aynı modeldir, ancak sadece Ben'in açıkladığı gibi kontrast kodlama şemasını seçtikten sonra.


5

Bu, bir yorumlama sorunu olabilir, “doğrudan etki” katsayısının gerçekte ne olduğunun yanlış anlaşılması olabilir.

Sürekli yordayıcı değişkenleri olan ve etkileşim terimleri olmayan regresyon modellerinde - yani, diğer terimlerin ürünü olarak yapılan terimler olmadan - her değişkenin katsayısı, regresyon yüzeyinin bu değişken yönündeki eğimidir. Değişkenlerin değerlerinden bağımsız olarak sabittir ve açıkça bu değişkenin etkisinin bir ölçüsüdür.

Etkileşimleri olan modellerde - yani, diğer terimlerin ürünleri olarak yapılan terimlerle - bu yorumlamanın yalnızca herhangi bir etkileşime dahil olmayan değişkenler için daha fazla nitelik olmadan yapılabilir . Etkileşimde yer alan bir değişkenin katsayısı , söz konusu değişkenle etkileşime giren tüm değişkenlerin değerleri sıfır olduğunda ve katsayının önem testi, regresyon yüzeyinin eğimi, yalnızca yordayıcı boşluğunun bu bölgesinde. Alanın o bölgesinde gerçekte veri bulunma zorunluluğu olmadığı için, görünen doğrudan etki katsayısı, verilerin gerçekte gözlemlendiği yordam boşluğu bölgesindeki regresyon yüzeyinin eğimine çok az benzerlik gösterebilir. Bu gibi durumlarda gerçek bir "doğrudan etki" yoktur; En iyi alternatif muhtemelen "ortalama etki" dir: regresyon yüzeyinin, söz konusu değişken yönündeki eğimi, her veri noktasında alın ve tüm veri noktalarının ortalaması alın. Bununla ilgili daha fazla bilgi için, bkz. Neden bağımsız değişkenleri merkezlemek, temel etkilerini ılımlılıkla değiştirebilir?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.