Bir modele ikinci dereceden bir terim eklemek, doğrusal terim eklemek mantıklı mıdır?


57

Öngörücülerimden birinin öncülün yordayıcıyla yalnızca kuadrik olarak ilişkili olması gereken (deneysel manipülasyon nedeniyle) bir (karma) modelim var. Dolayısıyla, modele yalnızca ikinci dereceden bir terim eklemek istiyorum. İki şey yapmamı engelliyor:

  1. Sanırım bir şeyler okudum, her zaman daha yüksek dereceli polinomları yerleştirirken düşük dereceli polinomu dahil etmelisiniz. Nerede bulduğumu unuttum ve literatürde baktım (örneğin, Faraway, 2002; Fox, 2002) İyi bir açıklama bulamıyorum.
  2. Her ikisini de eklediğimde, her ikisi de doğrusal ve ikinci dereceden bir terimdir. Onlardan sadece birini eklediğimde, anlamlı değiller. Bununla birlikte, yordayıcı ve verilerin doğrusal bir ilişkisi yorumlanamaz.

Sorumun bağlamı, özellikle kullanan bir karma modeldir lme4, ancak neden daha yüksek dereceli bir polinom değil, daha düşük dereceli polinomu dahil etmenin neden uygun olmadığını veya neden tamam olmadığını açıklayabilecek cevaplar almak istiyorum.

Gerekirse verileri sağlayabilirim.


5
Bu sorunun cevabının yardımcı olabileceğini düşünüyorum.

6
Evet, Procrastinator ile aynı fikirdeyim ve etkileşim soruları temelde aynı şey. Konuyla ilgili birkaç oy hakkımız var. Pro'nun önerisine ek olarak, ayrıca bkz. Tüm etkileşim terimlerinin regresyon modelinde kendi özel terimlerine ihtiyacı var mı? ve Etkileşim, regresyondaki doğrudan etkilerimi ortadan kaldırırsa ne olur? .
Andy,

Bu soruları hatırlattığınız için teşekkür ederiz. Burada verilen cevaplardan, sadece ikinci dereceden bir terim eklemek için yanlış bir sebep olmadığına dair önceden haklı sebeplerin olması iyi bir strateji gibi görünüyor. Kalan soru, ölçeklenebilirlik ile ilgili bir sorundur (bkz: stats.stackexchange.com/a/27726/442 ). Değişkenlerimi sadece ikinci dereceden bir terim kullanırken uydurmadan önce ortalamalı mıyım?
Henrik

1
@Henrik - gönderdiğiniz bağlantıdaki cevabım, modelin yordayıcı değerlerindeki keyfi değişimlere (bağımlılık merkezleme gibi) ne kadar bağımlı olarak kayıtsız kaldığına bağlıydı. soru 'hayır', aynı nedenle.
Makro

2
Karesel ve doğrusal karesel meselesi, bunun yinelenmiş sayılmaması gerektiğini düşündüğüm etkileşimlerden yeterince kavramsal olarak farklı.
dediklerinin - Monica Yeniden

Yanıtlar:


66

1. Neden doğrusal terimi dahil ediyor?

İkinci dereceden bir ilişkinin iki şekilde yazılabileceğini fark etmek aydınlatıcıdır:

y=a0+a1x+a2x2=a2(xb)2+c

(katsayıları denk burada,, sürekli olarak ve bir 2 b 2 + c = bir 0 ). X = b değeri2a2b=a1a2b2+c=a0x=b , ilişkinin global bir ucuna karşılık gelir (geometrik olarak bir parabolün tepe noktasını belirler).

Eğer doğrusal terimin dahil etmezseniz olasılıklar indirgenira1x

y=a0+a2x2=a2(x0)2+c

(şimdi, açıkçası, olduğu ve modelin sabit bir 0 terimini içerdiği varsayılmaktadır ). Yani, sen zorla b = 0c=a0a0b=0 .

Bunun ışığında, soru 1 , global ekstremumun x = 0'da gerçekleşmesi gerektiğinden emin olup olmadığınıza iner . Eğer öyleyse, o zaman güvenle bir 1 x doğrusal terim ihmal edebilirsiniz . Aksi takdirde, senx=0a1x eklemelisiniz .

2. Terimler dahil edildiğinde veya hariç tutuldukça önemlilikteki değişiklikler nasıl anlaşılır?

Bu konu, https://stats.stackexchange.com/a/28493 adresindeki ilgili bir konuda ayrıntılı olarak ele alınmıştır .

Mevcut durumda, önemi orada eğrilik ilişkisi olduğunu ve önemi belirten bir 1 olduğunu gösterir b sıfırdan farklı olduğu: Her iki terim (yanı sıra tabii ki, sabit) eklemeniz gerekir gibi geliyor.a2a1b


1
Teşekkürler whuber. Mükemmel cevap. Bu yüzden teorik ekstremumu 0 'a ortalarsam (aslında minimumdur) Doğrusal terimi atlamama iyi olur. Bu, gerçek anlamda çok önemli bir kuadratik belirleyiciye (doğrusal olanı olmadan) yol açar.
Henrik

eğer bir değişkenin hem doğrusal hem de ikinci dereceden terimleri birbiriyle ilişkiliyse, ikisini de bir modele dahil edebilir miyim, yoksa birini hariç tutabilir miyim (ki bunun ikinci dereceden olması gerektiğini varsayarım)?
mtao

@Teresa Regresyondaki ilişkili terimleri ortadan kaldırmak için genel bir neden yoktur. (Durum böyle olsaydı, şimdiye kadar yaratılmış olan regresyon modellerinin büyük çoğunluğu başı belada olurdu!) Birlikte, modelin tek başına bir terime göre anlamlı bir şey ifade etmemesine katkıda bulunan çok güçlü bir şekilde ilişkili terimler, bu terimlerin bir alt kümesine indirgenebilir.
whuber

@whuber, çok teşekkür ederim! Ayrıca, bir lojistik regresyon modeli için, etki büyüklüğünü tahmin etmek için oran oranını kullandım, ancak yalnızca doğrusal terimlerle. Doğrusal ve ikinci dereceden sahip olduğumda, aynı yaklaşımı kullanabilir ve sonuçları aynı şekilde yorumlayabilir miyim?
mtao

Tam değil. Bunun nedeni, doğrusal ve ikinci dereceden terimleri ayrı ayrı değiştiremeyeceğinizdir. Orijinal değişkeni biraz değiştirdiğinizde yanıtın nasıl değişeceğini de göz önünde bulundurmalısınız.
whuber

22

@whuber burada gerçekten mükemmel bir cevap verdi. Sadece küçük bir ücretsiz nokta eklemek istiyorum. Soru “öngörücü ve veri doğrusal bir ilişkisinin yorumlanamaz” olduğunu belirtir. Bu, genel olarak yanlış bir anlama işaret etse de, genellikle diğer tarafta da duyuyorum (“kare [kübik, vb.” Terimi nedir?).

Birden fazla farklı değişkene sahip bir modelimiz olduğunda , her beta [terim] genellikle kendi yorumunu karşılayabilir. Örneğin, eğer:

GPA^cÖllege=β0+β1GPAhbenghschÖÖl+β2sınıf sırası+β3OTURDU,

(GPA not ortalaması ortalaması;
aynı öğrencinin diğer öğrencilere göre öğrencinin not ortalamasının sıralaması;
SAT ise üniversiteye giden öğrenciler için standart, ülke çapında bir test olan 'skolastik yetenek testi' anlamına gelir)

o zaman her beta / terime ayrı yorumlar atayabiliriz. Örneğin, eğer bir öğrencinin lise genel not ortalamasının 1 puan daha yüksek olması - diğer her şey eşit olması durumunda - üniversite not ortalamasının puan daha yüksek olacağını tahmin ediyoruz . β1

Bununla birlikte, bir modelin bu şekilde yorumlanmasına her zaman izin verilmediğinin belirtilmesi önemlidir. Açık bir durum, değişkenlerin bazıları arasında bir etkileşim olduğu zaman, bireysel terimin farklılaşması mümkün olmayacağından ve yine de her şeyin sabit tutulması gerektiğinden, etkileşim terimi de değişecektir. Dolayısıyla, bir etkileşim olduğunda, ana etkileri yorumlamayız , ancak iyi anlaşıldığı gibi sadece basit etkileri yorumluyoruz .


y^=β0+β1x+β2x2
xxx2x2xx17pp-1xyy^x
dydx=β1+2β2x
yxy xyxÖldxnew. Bu sadece eğrisel bir ilişkinin doğasıdır.

1
Mükemmel tepki! Bu bana kullanıcı etkileşiminin etkilerini yorumlamak için kullandığı chl'nin verdiği birkaç mükemmel yanıtı hatırlatıyor . Bu yanıtta makale referansları veriyor, Etkileşim etkilerini tanımlamada en iyi yöntemler nelerdir? . Ve bu yanıtta eşeyler kullanarak grafiksel olarak etkileşimi gösteren harika bir örnek verir, İki sürekli değişken arasında etkileşim mümkün mü? .
Andy W

1
Gung'in cevabına göre, sadece istatistiksel modellemenin bir polinom regresyon modelinde ayrıntıları gizleyebilecek gürültüyü içerdiğini söylemek istiyorum. Bill Huber'in ortaya çıkardığı merkezleme sorununun bir yörünge olduğunu düşünüyorum, çünkü bir oluşumda doğrusal bir terim eksik, diğerinde ikinci dereceden terim ile ortaya çıkıyor. Sinyaldeki eğriliğin gücü, birinci dereceden bir terimden daha yüksek bir gereksinimi ortaya koyuyor ancak bize gerçekten lineer bir terime duyulan ihtiyaç hakkında hiçbir şey anlatmıyor.
Michael Chernick

7

@ whuber'un yukarıdaki cevabı , doğrusal terimden kaçınmanın "olağan" kuadratik modelin, "ekstremumun olduğuna kesinlikle emin olduğumu belirtmekle eşdeğer olduğunu belirtmekte haklıdır.x=0 .

Ancak, kullandığınız yazılımın bir "gotcha" olup olmadığını da kontrol etmeniz gerekir. Bazı yazılımlar bir polinom takarken ve katsayılarını test ederken verileri otomatik olarak ortalayabilirY=b0+b2(x-x¯)2x¯xx=x¯ .

Her ikisine de girildiğinde hem doğrusal hem de ikinci dereceden terimlerin anlamlı olduğu ifadesi bazı açıklamalara ihtiyaç duyar. Örneğin, SAS bu örnek için bir Tip I ve / veya Tip III testi bildirebilir. Tip I, karesel ifadeyi koymadan önce doğrusallığı test eder. Tip III modeldeki karesel ile doğrusal çizgiyi test eder.


2
x2x=0x=x¯xx2 , yani merkezleme olsaydı ilişkilidir değiloluştu.
gung - Monica’yı yeniden kurun

Farklı bir notta, 'at' sembolü ile mümkün olan kullanıcı adını belirterek kullanıcının katkılarına başvurabilirsiniz. Örneğin, bu durumda, '@ whuber'un cevabı hedefteki haklıdır ...' (Kabul ettiğim bir duyarlılık.)
gung - Reinstate Monica

1
Teşekkürler, Emil, bu hatırlatıcıları paylaştığınız için: ikisi de akılda tutmaya değer.
whuber

3

Brambor, Clark ve Golder (2006) (bir internet ekiyle birlikte gelir ), etkileşim modellerini nasıl anlayacağınız ve neden neredeyse her zaman daha düşük sıralı terimleri eklemeniz gerektiğini de içeren ortak tuzaklardan nasıl kaçınacağınız konusunda çok net bir şekilde açıklanmıştır. etkileşim modellerinde "kurucu terimler").

Analistler, çok nadir durumlar haricinde, çoklayıcı etkileşim modellerini belirlerken tüm kurucu terimleri içermelidir. Kurucu terimlerle, etkileşim terimini oluşturan öğelerin her birini kastediyoruz. [..]

Okuyucu çarpımsal etkileşim modelleri çeşitli şekillerde alabilir ve bu şekilde ikinci dereceden terimleri içerebilir, ancak, dikkat edilmelidir , olduğu gibi veya daha yüksek dereceden etkileşim açısından X , Z J . Etkileşim terimi ne şekilde olursa olsun, bütün kurucu terimler dahil edilmelidir. Bu nedenle, X etkileşimi terimi X 2 olduğunda dahil edilmelidirX2XZJXX2XZJXZXJZJXZJ

Bunu yapmamak, önyargılı tahminlere yol açacak belirsiz bir modele neden olabilir. Bu çıkarımsal hatalara yol açabilir.

Bu durumda ve , X Z ile bağıntılıysaZXZXZβ0β1β3

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.