Ya kuadratik ya da etkileşim terimi tecritte önemlidir, ancak ikisi birlikte değildir


15

Bir ödevin parçası olarak, iki öngörücü değişkenli bir modele uymak zorunda kaldım. Daha sonra dahil edilen öngörücülerden birine karşı modellerin kalıntılarını çizmek ve buna göre değişiklikler yapmak zorunda kaldım. Arsa eğrisel bir eğilim gösterdi ve ben de bu öngörücü için ikinci dereceden bir terim ekledim. Yeni model, ikinci dereceden terimin önemli olduğunu gösterdi. Şimdiye kadar iyi.

Ancak veriler, bir etkileşimin de anlamlı olduğunu göstermektedir. Orijinal modele bir etkileşim terimi eklemek de eğrisel eğilimi 'sabitledi' ve modele eklendiğinde de (kuadratik terim olmadan) önemliydi. Sorun, modele hem kuadratik hem de etkileşim terimi eklendiğinde, bunlardan biri önemli değildir.

Modele hangi terimi (kuadratik veya etkileşim) dahil etmeliyim ve neden?

Yanıtlar:


21

özet

Öngörücüler ilişkilendirildiğinde, ikinci dereceden bir terim ve bir etkileşim terimi benzer bilgiler taşır. Bu, kuadratik modelin veya etkileşim modelinin önemli olmasına neden olabilir; ancak her iki terim de dahil edildiğinde, çok benzer oldukları için ikisi de önemli olmayabilir. VIF gibi çoklu bağlantı için standart teşhis bunların hiçbirini tespit edemeyebilir. Etkileşim yerine ikinci dereceden bir model kullanmanın etkisini tespit etmek için özel olarak tasarlanmış bir teşhis grafiği bile hangi modelin en iyi olduğunu belirleyemeyebilir.


analiz

Bu analizin itici gücü ve ana gücü, soruda anlatılan durumları karakterize etmektir. Böyle bir karakterizasyon mevcut olduğunda, buna göre davranan verileri simüle etmek kolay bir iştir.

Edilmiş iki belirleyiciler ve X, 2 (otomatik olarak her bir veri kümesi içinde birim farkına sahip olduğu standartlaştırmak) ve rasgele bir cevap varsayalım Y, bu değişkenlerin ve etkileşimi artı bağımsız rastgele hata tespit edilir:X1X2Y

Y=β1X1+β2X2+β1,2X1X2+ε.

Birçok durumda öngörücüler ilişkilidir. Veri kümesi şöyle görünebilir:

Dağılım grafiği matrisi

Bu örnek veriler ve β 1 , 2 = 0.1 ile üretilmiştir . Arasındaki korelasyon X 1 ve X 2 olduğu 0.85 .β1=β2=1β1,2=0.1X1X20.85

Bu mutlaka biz düşünüyoruz anlamına gelmez ve X 2 rastgele değişkenlerin gerçekleşmeleri olarak: Her iki nereye durumu içerebilir X 1 ve X 2 Tasarlanmış deneyde ayarları vardır, ama nedense bu ayarlar dik değildir.X1X2X1X2

Korelasyonun nasıl ortaya çıktığına bakılmaksızın, bunu tanımlamanın iyi bir yolu, yordayıcıların ortalamalarından ne kadar farklı olduğu, . Bu farklılıklar (bunların varyans az olması anlamında oldukça küçük olacak 1 ); daha arasındaki korelasyon X 1 ve X 2 , daha küçük olan bu fark olacaktır. O zaman yazma, X 1 = X 0 + δ 1 ve X 2 = X 0 + δX0=(X1+X2)/21X1X2X1=X0+δ1X 2'yi X 1 cinsinden X 2 = X 1 + ( δ 2 - δ 1 ) olarakyeniden ifade edebiliriz (diyelim ) . BunuyalnızcaetkileşimteriminebağlayanmodelX2=X0+δ2X2X1X2=X1+(δ2δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2δ1])+ε=(β1+β1,2[δ2δ1])X1+β2X2+β1,2X12+ε

Değerlerini sunulmuştur sadece küçük bir oranla büyük farklılıklar p 1 , biz gerçek rasgele terimlerle, bu varyasyon toplayabilir, yazmaβ1,2[δ2δ1]β1

Y=β1X1+β2X2+β1,2X12+(ε+β1,2[δ2δ1]X1)

Biz gerilediği Böylece, karşı X 1 , X 2 , ve X, 2 1 , biz yapacak bir hata: artıklara varyasyon bağlıdır X 1 (olduğundan, bu olacak varyans ). Bu basit bir varyans hesaplaması ile görülebilir:YX1,X2X12X1

var(ε+β1,2[δ2δ1]X1)=var(ε)+[β1,22var(δ2δ1)]X12.

Bununla birlikte, tipik varyasyon β 1 , 2 [ δ 2 - δ 1 ] X 1'deki tipik varyasyonu önemli ölçüde aşarsa , bu heterosedastisite saptanamayacak kadar düşük olacaktır (ve iyi bir model vermelidir). (Aşağıda gösterildiği gibi, regresyon varsayımları bu ihlali aramaya tek yön mutlak değerinden karşı artıkların mutlak değerini çizmektir X 1 standardize etmek ilk --remembering X 1 gerekirse.) Bu biz arayan karakterizasyonu olduğunu .εβ1,2[δ2δ1]X1X1X1

Bu anımsama ve X 2 ünite varyans için standardize edilmelidir kabul edildi bu varyansını ima ö 2 - δ 1 nispeten küçük olacaktır. Gözlenen davranışı yeniden oluşturmak için, β 1 , 2 için küçük bir mutlak değer seçmek yeterli olmalı , ancak anlamlı olması için yeterince büyük hale getirin (veya yeterince büyük bir veri kümesi kullanın).X1X2δ2δ1β1,2

Kısacası, öngörücüler ilişkilendirildiğinde ve etkileşim küçük ancak çok küçük olmadığında, kuadratik bir terim (sadece öngörücülerde) ve bir etkileşim terimi ayrı ayrı anlamlı olacak ancak birbiriyle karıştırılacaktır. İstatistiksel yöntemlerin hangisinin daha iyi olduğuna karar vermemize yardımcı olması pek olası değildir.


Misal

Birkaç model takarak bunu örnek verilerle kontrol edelim. Bu verileri simüle ederken 0,1 olarak ayarlandığını hatırlayın . Her ne kadar bu küçük olsa da (kuadratik davranış önceki dağılım grafiklerinde bile görünmüyor), 150 veri noktasıyla bunu tespit etme şansımız var.β1,20.1150

İlk olarak, ikinci dereceden model :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

0.068β1,2=0.1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

5

Ardından, etkileşimli ancak ikinci dereceden bir terim olmayan model :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

Tüm sonuçlar öncekilere benzer. Her ikisi de eşit derecede iyidir (etkileşim modeline çok küçük bir avantajla).

Son olarak, hem etkileşimi hem de karesel terimleri ekleyelim :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

X1X2X12X1X2

İkinci dereceden modelde (birincisi) hetero-esnekliği tespit etmeye çalışsaydık, hayal kırıklığına uğrarız:

Teşhis grafiği

|X1|


9

Verilerin kaynağına göre en anlamlı olan nedir?

Bu soruyu sizin için cevaplayamayız, bilgisayar bu soruyu sizin için cevaplayamaz. Sadece istatistiksel programlar yerine istatistikçilere hâlâ ihtiyacımızın nedeni, bunun gibi sorulardan kaynaklanmaktadır. İstatistikler sadece sayıları kırmaktan daha fazlası değil, sorunun ve verilerin kaynağını anlamak ve bilime, arka plana ve bilgisayarın baktığı verilerin dışındaki diğer bilgilere dayanarak kararlar alabilmekle ilgilidir. Öğretmeniniz muhtemelen bunu ödevin bir parçası olarak düşüneceğinizi umuyor. Eğer böyle bir problem atamış olsaydım (ve daha önce de yapmıştım) Cevabınızın gerekçesini gerçekten seçtiğinizden daha fazla ilgilendirirdim.

Muhtemelen şu anki sınıfınızın ötesindedir, ancak bir modeli diğerine tercih etmek için açık bir bilimsel neden yoksa model ortalamasıdır, her iki modele de (ve belki de birkaç başka modele) uyuyorsanız, tahminleri birlikte ortalama (genellikle farklı modellerin uyum iyiliği ile ağırlıklandırılır).

Başka bir seçenek, mümkünse, daha fazla veri toplamak ve mümkünse x değerlerini seçerek doğrusal olmayan ve etkileşim efektlerinin ne olduğunu daha net hale getirmektir.

İç içe yerleştirilmemiş modellerin (AIC, BIC, vb.) Uyumunu karşılaştırmak için bazı araçlar vardır, ancak bu durumda muhtemelen verilerin nereden geldiğini ve en anlamlı olanı anlamayı geçersiz kılmak için yeterli fark göstermeyecektir.


1

@ Greg's'e ek olarak başka bir olasılık, anlamlı olmasa da her iki terimi de eklemektir. Sadece istatistiksel olarak anlamlı terimleri dahil etmek evrenin bir yasası değildir.


Teşekkürler Peter & @Greg. Çalışmalarımın bu aşamasında en azından bazı nitel akıl yürütme gerektiren sorulara kesin cevaplar arıyorum. İkinci dereceden terimin veya etkileşim teriminin eklenmesi, artıkların vs tahminci grafiğini 'sabitlediğinden' hangisinin dahil edilmesi gerektiğinden emin değildim. Beni şaşırtan şey, ikinci dereceden bir terimin dahil edilmesinin, etkileşim terimini anlamlı hale getirmemesidir. Bir etkileşim varsa, ikinci dereceden bir terimin dahil edilip edilmediğine bakılmaksızın önemli olacağını düşünürdüm.
Tal Bashan

1
Merhaba @TalBashan Ünlü istatistikçi, Donald Cox, bir zamanlar "rutin istatistiksel sorular, sadece şüpheli istatistiksel rutinleri var" dedi
Peter Flom - Eski Monica

@PeterFlom Belki de Sir David Cox mu demek istediniz?
Michael R.Chernick

Hata. Evet, David, Donald değil. Afedersiniz.
Peter Flom - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.