Doğrusal regresyonda bağımsız değişkenler olarak bire bir oranların yorumlanması


13

Ben kategorik değişkenler kavramı ve kollearlık önlemek için temel olarak bir seviye sığdırmak için izin veren ilgili kukla değişken kodlama aşina. Bu tür modellerden parametre tahminlerinin nasıl yorumlanacağına da aşinayım: Temel kategoriye göre kategorik öngörücünün belirli bir donatılmış düzeyi için sonuçta öngörülen değişiklik.

Emin olmadığım, bir toplamı oluşturan bağımsız değişkenler kümesinin nasıl yorumlanacağıdır . Modeldeki tüm oranları sığdırırsak yine de eşbiçimliğimiz var, bu yüzden muhtemelen bir kategoriyi temel olarak bırakmak zorundayız. Ayrıca, bu değişkenin öneminin genel testi için tip III SS'ye bakacağımı varsayıyorum. Bununla birlikte, modele uyan ve taban çizgisi olarak kabul edilen düzeyler için parametre tahminlerini nasıl yorumlayabiliriz?

Bir örnek : Posta kodu düzeyinde, bağımsız değişken metamorfik, magmatik ve tortul kayaçların oranıdır. Bildiğiniz gibi, bunlar üç ana kaya türüdür ve tüm kayaçlar bunlardan biri olarak sınıflandırılmıştır. Bu nedenle, her üçünde de oranlar 1'e eşittir. Sonuç, ilgili bir posta kodundaki ortalama radon seviyesidir.

Örneğin , modeldeki yordayıcılar olarak metamorfik ve magmatik oranlara uyacak olsaydım, taban çizgisi olarak tortu bırakarak , genel olarak yerleştirilmiş iki seviyenin III SS F testi, kaya türünün bir bütün olarak önemli olup olmadığını gösterecektir. sonucun öngörücüsü (ortalama radon seviyesi). Daha sonra, kaya türlerinden birinin veya her ikisinin taban çizgisinden önemli ölçüde farklı olup olmadığını belirlemek için tek tek p değerlerine ( t dağılımına göre) bakabilirim .

Bununla birlikte, parametre tahminleri söz konusu olduğunda, beynim bunları sadece gruplar arasındaki sonuçta (kaya türleri) tahmin edilen değişiklik olarak yorumlamak istiyor ve oranlara uygun olduklarını nasıl anlayacağımı anlamıyorum. .

Eğer metamorfik için tahmini , örneğin 0.43 ise, yorum, kaya metamorfik ve tortul olduğu zaman, tahmin edilen ortalama radon seviyesinin 0.43 birim arttığı anlamına gelmez. Bununla birlikte, yorum aynı zamanda metamorfik kaya türü oranında bir tür birim artış (örneğin 0.1) için değildir, çünkü bu aynı zamanda taban çizgisine ( tortul ) ve ayrıca bu değişime de bağlı olduğu gerçeğini yansıtmaz. metamorfik oran, doğal olarak, modele uygun diğer kaya seviyesinin oranını magmatik olarak değiştirir .β

Böyle bir modelin yorumlanmasını sağlayan bir kaynağı olan var mı, yoksa burada kısa bir örnek verebilir misiniz?


2
+1 Genellikle oranların doğrusal ilişkisi yoktur. Eğer örneğin reparameterizations modeli geliştirmek idi, aynı zamanda, doğal, basit yorumlara izin verecektir. Verilerinizdeki doğrusallığı incelediniz mi? (π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber

1
Hayır, ama sorunlu olacağını düşünüyorum, çünkü özellikle "oranların" çoğu aslında 0 ve 1 ya da 0 ve 1'e çok yakın değerler çıktı ve bu yüzden zaten ikili gibi davranıyor. Bu nedenle, gerçek grupları onlardan çıkaracağız (ve orantıları ortadan kaldıracağız), ancak bu yine de doğru yorumlamanın ne olacağı konusundaki ilgimi varsayımsal olarak tetikledi.
Meg

Yeterince adil - bu iyi bir soru.
whuber

2
temsil etmek matematiksel olarak denk yollarıdır . Bunları yorumlamak için olasılık olduğunda sol tarafa "log olasılık oranları" denir ; herhangi bir oran için karşılaştırılabilir bir anlamı vardır. Böylece, , log olasılık oranları gibi yorumlanabilir. Bir dizi için birliğine toplayarak regresörler şunu kullanabilirsiniz arasında için bir yol olarak yeniden ifade Modelinizdeki bu regressors. ( veya olduğunda dikkatli .)λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1
whuber

2
λi=log(πi) iyi çalışmalıdır, çünkü ve gibi.
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi
whuber

Yanıtlar:


8

Takip ve doğru cevap olduğunu düşündüğüm gibi (benim için makul görünüyor): Bu soruyu ASA Connect Listserv'e gönderdim ve Stony Brook'daki Thomas Sexton'dan şu yanıtı aldım:

"Tahmini doğrusal regresyon modeliniz şöyle görünüyor:

ln (Radon) = (diğer değişkenlerde doğrusal bir ifade) + 0.43M + 0.92I

burada M ve I, posta kodunda sırasıyla metamorfik ve magmatik kayaçların yüzdelerini temsil eder. Kısıtladığınız:

M + I + S = 100

burada S, ZIP kodundaki sedimanter kaya yüzdelerini temsil eder.

0.43'ün yorumlanması, M'deki bir yüzde puanlık bir artışın , modeldeki diğer tüm değişkenleri sabit tutan , ln (Radon) 'da 0.43'lük bir artışla ilişkili olmasıdır . Bu nedenle, I'nin değeri değişemez ve kısıtlamayı karşılarken M'de bir puanlık bir artışa sahip olmanın tek yolu, atlanmış kategori olan S'de bir yüzde puanlık bir düşüşe sahip olmaktır.

Elbette bu değişiklik, S = 0 olan ZIP kodlarında gerçekleşemez, ancak M'deki bir azalma ve S'deki karşılık gelen bir artış, bu ZIP kodlarında mümkün olacaktır. "

İşte iplik ASA link: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b561-4427476d3ddf&sKey=bf9cef9062314b07a5f2#bm13

Bunu kabul edilen doğru cevap olarak gönderiyorum, ancak ekleyecek bir şey varsa daha fazla tartışmaya açıkım.


Bir öneri ASA iş parçacığına gitmek olacaktır, çünkü burada verilen cevabı sorgulayan bazı tartışmalar vardır.
Maxim.K

@ Maxim.K: Yukarıda bağladığım ASA iş parçacığımdan mı bahsediyorsun? Eğer öyleyse, evet, birçok cevaplanmamış uyarı vardı ve hala "doğru" cevaptan tam olarak emin değilim (eğer varsa). Bu yüzden niteleyiciyi ekledim, "Bunu kabul edilen doğru cevap olarak gönderiyorum, ancak ekleyecek bir şeyleri varsa daha fazla tartışmaya açıkım."
Meg
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.