Log-lineer regresyon ve lojistik regresyon


21

Herhangi biri log-lineer regresyon ve lojistik regresyon arasındaki net bir farklar listesi sunabilir mi? Eski olanın basit bir doğrusal regresyon modeli olduğunu anlıyorum, ancak ne zaman kullanılması gerektiği konusunda net değilim.

Yanıtlar:


19

Adı biraz yanlış isim. Log-linear modeller geleneksel olarak bir beklenmedik durum tablosu formatında veri analizi için kullanılmıştır. "Veri sayımı" nın mutlaka bir Poisson dağılımını izlemesi gerekmese de, log-linear modeli aslında sadece bir Poisson regresyon modelidir. Bu nedenle "log" adı (Poisson regresyon modelleri "log" bağlantı fonksiyonunu içerir).

Doğrusal bir regresyon modelinde "log dönüştürülmüş sonuç değişkeni", log-doğrusal bir model değildir ("log-linear" in önerdiği gibi, üstelleştirilmiş bir sonuç değişkeni de değildir). Hem log-lineer modeller hem de lojistik regresyonlar, lineer bir tahminci (log-odds veya log-rate gibi) arasındaki ilişkinin model değişkenlerinde lineer olduğu genelleştirilmiş lineer modellerin örnekleridir . Bunlar "basit doğrusal regresyon modelleri" değildir (veya normal E [Y | X] = a + bX formatını kullanan modeller ).E[Y|X]=a+bX

Bütün bunlara rağmen, lojistik regresyon ve poisson regresyon kullanarak kategorik değişkenler arasındaki ilişkilerde eşit çıkarım elde etmek mümkündür. Sadece poisson modelinde, sonuç değişkenleri ortak değişkenler gibi ele alınır. İlginç bir şekilde, gruplar arasında bilgiyi orantılı oran modeline çok benzeyen bir şekilde ödünç alan bazı modeller ayarlayabilirsiniz, ancak bu iyi anlaşılmamakta ve nadiren kullanılmamaktadır.

Aşağıda gösterilen R kullanılarak lojistik ve poisson regresyon modellerinde eşdeğer çıkarım elde edilmesinin örnekleri:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

İlginç, ve arasındaki ilişki eksikliği , lojistik regresyon modelinde olasılık oranının 1 olduğu ve benzer şekilde, loglinear modelde etkileşim teriminin 0 olduğu anlamına gelir. Acil durum tablosu verilerinde koşullu bağımsızlığı nasıl ölçtüğümüz hakkında bir fikir verir.yx


Yine, bu muhtemelen deneyimsizliğimi gösterir, ancak beklenmedik durum tabloları için bir tanım verebilir misiniz? Ayrıca, bu soruyla karşılaşan başkalarına da yardımcı olabilir.
user38133

Acil durum tabloları (genellikle) iki değişkenin olası tüm yanıtlarını sıralayan ve hücrelerdeki gözlem sıklığını gösteren 2 boyutlu tablolardır. Örneğin, sigara içme durumunu (hiçbir zaman güncel değil) ve sigara içmeyi ve kanser riski arasındaki ilişkiyi tahmin etmek için kullanacağınız kanseri (akciğer ca - kanser yok) gösteren 2'ye 2'lik bir acil durum tablosuna sahip olabilirsiniz.
AdamO

15

İkisine de "basit doğrusal regresyon modeli" diyeceğimi sanmıyorum. Her ne kadar log veya logit dönüşümlerini birkaç farklı model için link fonksiyonu olarak kullanmak mümkün olsa da, bunların tipik olarak belirli modellere atıfta bulunduğu anlaşılmaktadır. Örneğin, "lojistik regresyon", yanıt değişkeninin binom olarak dağıtıldığı durumlar için genelleştirilmiş bir doğrusal model (GLiM) olarak anlaşılmaktadır . Ek olarak, "log-linear regresyon" genellikle çok yönlü beklenmedik durum tablolarına uygulanan bir Poisson GLiM olarak anlaşılmaktadır.. Başka bir deyişle, her ikisi de regresyon modelleri / GLiM'ler olmalarının ötesinde, onları mutlaka çok benzer olarak görmüyorum (@AdamO'nun işaret ettiği gibi aralarında bazı bağlantılar vardır, ancak tipik kullanımlar oldukça farklıdır). En büyük fark, lojistik regresyonun cevabın binom olarak dağıldığını ve log-lineer regresyonun cevabın Poisson olarak dağıldığını varsaymasıdır . Aslında, log-lineer regresyon, regresyon modelinin birçoğundan farklıdır, çünkü yanıt değişkeni gerçekten de sizin değişkenlerinizden biri değildir (her zamanki anlamda), aksine, değişkenlerinizin kombinasyonlarıyla ilişkili frekans sayıları kümesi Çok yönlü beklenmedik durum tablosunda.


Teşekkürler! Sanırım, muhtemelen benim deneyim eksikliğimi gösteren doğal takip sorumu, verilen bir problemi modellemek için doğru dağılımın nasıl belirleneceği ile ilgilidir. Her zaman doğru seçim yapabileceğimden emin olmak için biraz daha okumaya ihtiyacım olacak.
user38133

2
Log-linear modeli, çok yönlü bir beklenmedik durum tablosuna uygulanan bir Poisson regresyon modelidir. Örneğin, iki yönlü bir beklenmedik durum tablosuna sahipseniz ve satırların ve sütunların bağımsız olup olmadığını merak ettiyseniz, ki kare testi uygularsınız; > 2 yollu bir acil durum tablosu varsa, log-linear modelini kullanabilirsiniz. Lojistik regresyon, bir cevap değişkeninizin olduğu durumlar içindir ve sadece . {0, 1}
gung - Reinstate Monica

0

Netleştirmek için, "ikili" bir lojistik regresyonun iki sonucu olan bağımlı bir değişkeni vardır. Anladığım kadarıyla, bağımlı, sonuç değişkeniniz 2'den fazla kategoriye sahipse, "çok terimli" bir lojistik regresyon kullanma seçeneği de var. Buraya bakınız .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.