Neden bağımsız değişkenleri merkezlemek temel etkileri ılımlılıkla değiştirebildi?


28

Bu CV dizisinden esinlenerek çoklu regresyon ve etkileşimle ilgili bir sorum var: Merkezlenmiş değişkenler kullanarak etkileşim terimi hiyerarşik regresyon analizi? Hangi değişkenleri merkezlemeliyiz?

Denetleme efekti denetlerken, bağımsız değişkenlerimi merkezlerim ve etkileşim terimimi hesaplamak için merkezlenmiş değişkenleri çarparım. Sonra regresyon analizimi yapıyorum ve ılımlılığı gösterebilecek ana ve etkileşim etkilerini kontrol ediyorum.

Eğer analizi merkezlemeden yinelersem, görünüşe göre belirleme katsayısı ( ) değişmez fakat regresyon katsayıları ( s) değişir . Bu açık ve mantıklı görünüyor. βR2β

Anlamadığım şey: Ana etkilerin p değerleri, etkileşim olmasa da (ki bu doğru) olmasına rağmen, merkezleme ile büyük ölçüde değişir. Böylece temel etkileri yorumlamam çarpıcı biçimde değişebilirdi - sadece merkezleme ya da değil. (Her iki analizde de yine aynı veri!)

Biri netleşebilir mi? - Çünkü bu, değişkenlerimi merkezleme seçeneğinin zorunlu olacağı ve herkesin aynı sonuçları aynı verilerle alabilmesi için yapması gerektiği anlamına gelir.


Bu soruna ve kapsamlı açıklamalarınıza ulaştığınız için teşekkür ederiz. Yardımınızın çok takdir edildiğinden emin olun!

Benim için merkezlemenin en büyük avantajı çoklu bağlantılardan kaçınmaktır. Bir kural oluşturmak, merkezlemek olsun olmasın, hala oldukça kafa karıştırıcı. Benim izlenimim, kaynakların çoğunun merkezlenmeyi önerdiği halde, bunu yaparken bazı "riskler" olmasına rağmen. Yine, aynı malzeme ve verilerle ilgilenen 2 araştırmacının farklı sonuçlar verebileceği gerçeğini söylemek isterim, çünkü biri merkezleme diğeri ise değil. Bortz'un kitabının bir bölümünü okudum (Almanya ve Avrupa'da Profesör ve bir İstatistik Yıldızıydı) ve bu teknikten bahsetmiyor bile; sadece değişkenlerle etkileşime girdiklerinde temel etkilerini yorumlamada dikkatli olduğuna dikkat çekiyor.

Ne de olsa, bir IV, bir moderatör (veya ikinci IV) ve bir DV ile regresyon yaptığınızda, merkezlenmesini tavsiye eder misiniz?


5
Neredeyse hiç merkezleme kullanmıyorum, tamamen gereksiz ve kafa karıştırıcı buluyorum.
Frank Harrell,

3
Cevapları tekrar dikkatlice okuyunuz. Çıkarımlarınız do not düzgün çizilmiş varsa - siz bağımsız değişkenleri ortalamak veya herhangi lineer dönüşümü uyguladığınızda değiştirin. Merkezlenememekten kaynaklanan çok kutupluluk tamamen sayısal bir sorundur ve herhangi bir makul yazılım tarafından otomatik olarak ele alınır.
Scortchi

1
Bu fenomen (p-değerlerin değişmesi), istatistik.stackexchange.com/questions/28730/… adresinde açıklandığı gibi etkileşimlerin ikinci dereceden doğasının bir sonucu olarak anlaşılabilir .
whuber

Yanıtlar:


23

Etkileşim terimlerinin olmadığı modellerde (yani, diğer terimlerin ürünü olarak oluşturulmuş terimler olmadan), her değişkenin regresyon katsayısı, regresyon yüzeyinin bu değişken yönündeki eğimidir. Değişkenlerin değerlerinden bağımsız olarak sabittir ve bu nedenle bu değişkenin genel etkisini ölçmek için söylenebilir.

Etkileşime sahip modellerde, bu yorum yalnızca herhangi bir etkileşime dahil olmayan değişkenler için başka bir nitelik olmadan yapılabilir. Etkileşimde yer alan bir değişken için, "ana etki" regresyon katsayısı - yani, değişkenin kendi başına regresyon katsayısı - diğer tüm değişkenler değişken olduğunda bu regresyon yüzeyinin eğrisidir; Bu değişken ile etkileşime girme sıfıra sıfır değerine sahiptir ve katsayıların önemlilik testi, regresyon yüzeyinin sadece tahminci boşluğunun o bölgesinde eğimine işaret eder.. Alanın o bölgesinde gerçekte veri bulunmasına gerek olmadığından, ana etki katsayısı, verilerin gerçekte gözlemlendiği yordayıcı alanı bölgesindeki regresyon yüzeyinin eğimine çok az benzerlik gösterebilir.

Anova açısından, ana etki katsayısı, genel bir ana etkiye değil, basit bir ana etkiye benzemektedir. Ayrıca, bir anova tasarımında neyin, verilerden hücrelerden ekstrapolasyon yaparak verinin sağlandığı boş hücreler olabileceğini de belirtebilir.

Anova'da genel bir ana etkiye benzer olan ve verinin gözlendiği bölgenin ötesinde dışlanmayan değişkenin genel etkisinin bir ölçüsü için, regresyon yüzeyinin ortalama eğimine değişken yönüne bakmalıyız. Burada ortalamalar, gerçekte gözlemlenen N vakalarının üzerindedir. Bu ortalama eğim, söz konusu değişkeni içeren modeldeki tüm terimlerin regresyon katsayılarının ağırlıklı bir toplamı olarak ifade edilebilir.

Ağırlıkları tarif etmek zordur, ancak elde edilmesi kolaydır. Bir değişkenin ana etki katsayısı her zaman 1 ağırlık alır. Bu değişkeni içeren bir terimin diğer her bir katsayısı için, ağırlık o terimdeki diğer değişkenlerin çarpımının ortalamasıdır. Örneğin, beş "ham" değişkenimiz x1, x2, x3, x4, x5, artı dört iki yönlü etkileşim (x1,x2), (x1,x3), (x2,x3), (x4,x5)ve bir üç yönlü etkileşimimiz varsa (x1,x2,x3), o zaman model

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

ve genel ana etkiler

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

M [.] parantez içindeki miktarın örnek ortalamasını belirtir. Parantezlerin içindeki tüm ürün terimleri, regresyonu yapmak için yapılanlar arasındadır, bu nedenle bir regresyon programı, onlar hakkında zaten bilgi sahibi olmalı ve isteklerini istediği gibi yazdırabilmelidir.

Yalnızca ana etkileri ve iki yönlü etkileşimleri olan modellerde, genel etkileri elde etmenin daha basit bir yolu vardır: [1] ham değişkenleri ortalamalarında ortalayın. Bu, ürün şartlarını hesaplamadan önce yapılmalı ve ürünlere yapılmamalıdır. Ardından, tüm M [.] İfadeleri 0 olacak ve regresyon katsayıları genel etkiler olarak yorumlanacaktır. B'nin değerleri değişecek; B değerleri olmayacak. Yalnızca etkileşimlerde yer alan değişkenlerin ortalanması gerekir, ancak diğer ölçülen değişkenlerin merkezlenmesinde genellikle bir zararı yoktur. Bir değişkeni merkezlemenin genel etkisi, kesişimi değiştirmenin yanı sıra, yalnızca merkezlenmiş değişkenle etkileşime giren diğer değişkenlerin katsayılarını değiştirmesidir. Özellikle, merkezlenmiş değişkeni içeren terimlerin katsayılarını değiştirmez. Yukarıda verilen örnekte, x1 merkezlenmesi b0, b2, b3 ve b23'ü değiştirir.

[1 - "Merkezleme" farklı insanlar tarafından karışıklığa neden olacak kadar farklı şekillerde kullanılır. Burada kullanıldığı gibi, "bir değişkeni # olarak ortalamak", değişken üzerindeki tüm puanlardan # çıkarmak, orijinal puanları # dan sapmalara dönüştürmek anlamına gelir.]

Öyleyse neden her zaman rutin olarak araçlara odaklanmıyorsunuz? Üç nedeni. İlk olarak, merkezlenmemiş değişkenlerin ana etki katsayıları kendileri ilgi çekici olabilir. Bu gibi durumlarda merkezleme, diğer değişkenlerin ana etki katsayılarını değiştirdiği için ters-üretken olacaktır.

İkincisi, merkezleme tüm M [.] İfadelerini 0 yapacak ve böylece basit efektleri genel efektlere, sadece üç yönlü veya daha yüksek etkileşimi olmayan modellerde dönüştürecaktır . Model bu tür etkileşimler içeriyorsa, b -> B hesaplamaları, tüm değişkenler ortalamalarında ortalanmış olsa bile, hala yapılmalıdır.

Üçüncüsü, öngörücülerin rasyonel olarak seçilmesinin aksine dağılımı ile tanımlanan ortalama gibi bir değere merkezleme, merkezlemeden etkilenen tüm katsayıların sizin özel örneğinize özgü olacağı anlamına gelir. Ortalamayı ortalarsanız, çalışmanızı kopyalamaya çalışan birileri, aldığınız aynı katsayıları elde etmek istiyorlarsa, kendi ortalamanızı değil, ortalamanız gerekir. Bu sorunun çözümü, her değişkeni, puanların anlamına bağlı olan ve puanların dağılımına bağlı olmayan, o değişkenin rasyonel olarak seçilen bir merkezi değerinde merkezlemektir. Ancak, b -> B hesaplamaları hala gerekli kalmaktadır.

Genel etkilerin önemi, regresyon katsayılarının doğrusal kombinasyonlarını test etmek için bilinen prosedürlerle test edilebilir. Bununla birlikte, sonuçlar genel olarak yapısal parametreler değildir fakat tasarıma bağımlı olduğundan, dikkatli yorumlanmalıdır. Yapısal parametreler - regresyon katsayıları (merkezlenmemiş veya rasyonel merkezleme ile) ve hata varyansının - tahmincilerin dağılımındaki değişiklikler altında değişmez kalması beklenebilir, ancak genel etkiler genellikle değişecektir. Genel etkiler belirli numuneye özgüdür ve öngörücüler üzerinde farklı dağılımlara sahip diğer numunelere geçmesi beklenmemelidir. Genel bir etki bir çalışmada diğerinde anlamlı değilse, öngörücülerin dağılımındaki farklılıktan başka bir şey yansıtmayabilir.


10

β

y=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

Aynı soruyla delirmeye başladım, ama sonunda kendime ve sorunuma çözüm buldum. MERKEZİ DEĞİŞKENLERİNİZİ NASIL HESAPLAYABİLECEĞİNİZDİR. İki seçenek vardır:
1. MEAN - BİREYSEL DEĞİŞKENLER 2. BİREYSEL DEĞİŞKENLER - MEAN
Merkezli değişkenlerinizi muhtemelen (bireysel değişken - ortalama değer) hesapladınız , bu nedenle düşük değerli olanlar negatif puanlar alır ve yüksek değerli olanlar pozitif olurlar. puanları.
Anlaşmayı kolaylaştırmak için bir örnekle açıklayacağım. Kas gücünün kemik kütlesini nasıl etkilediğini görmek istiyorum ve kızlarda ve erkek çocuklarda farklı şekilde etkilenip etkilenmediğini görmek için cinsiyete dikkat etmek istiyorum. Fikir şu ki, kas kuvveti arttıkça kemik kütlesi artar. Bu nedenle var:

Bağımlı değişken: Kemik kütlesi Bağımsız değişkenler: Cinsiyet, kas gücü, etkileşim_SEX_MUSCLE gücü.

Çok kutupluluk bulduğumda (genellikle bir etkileşim terimi varken yaparsınız), kas gücü (MEAN - BİREYSEL DEĞİŞKEN VARIABLE) yaptım ve yeni merkezleme değişkeniyle yeni etkileşim terimini oluşturdum. Benim katsayılarım

0.902
-0.010
-0.023
0.0002

0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

Buna bakarak kasın kemiği olumsuz yönde etkilediğini düşünebilirsiniz, ancak orijinal değişkenlerinizi değil, merkezli değişkenlerinizi düşünmeniz gerekir. Diyelim ki grubun ortalama kas gücü vardı 30 KG. Ve bunu yapan bir oğlanın (WEAKBOY) 20 KGve bir başkasının 40KG(STRONGBOY) yaptığını tahmin etmek istiyorsun . WEAKBOY'ın ortalama değerleri (ORAN GRUP DEĞERİ - BİREYSEL DEĞER; 30 - 20 = 10) ve STRONGBÖY için -10 olacaktır. Bu değerleri denklemi uygulamak:

WEAKBOY Kemik kütlesi = 0.902 - 0 - (0.023 * 10) + .... = 0.672

STRONGBOY Kemik kütlesi = 0.902 - (0.023 * (- 10)) + ... = 1.132

Gördüğünüz gibi STRONGBOY gerçekten daha güçlü bir kemiğe sahip olacak. Değişkenlerinizi tam tersi şekilde merkezlemişseniz: (BİREYSEL - MEAN), tüm katsayılar aynı olacaktır ancak semboller farklı olacaktır. Bunun nedeni, merkezli değişken uyguladığınızda WEAKBOY (-10) ve STRONGBOY (+10) olacaktır. Bu nedenle nihai sonuçlar tamamen aynı olacaktır.

Anladıktan sonra her şey mantıklı geliyor.

Umarım örnek yeterince açıktır.


Bu hata, p-değerlerindeki değişiklikleri açıklamayacaktır. BTW, seçeneğiniz (1) merkezlenmiyor, çünkü değerleri de sabit ile çarpmayı da içeriyor. (Sabit -1.)
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.