Doğrusal regresyon ve lojistik regresyon arasındaki fark nedir?


122

Doğrusal regresyon ve lojistik regresyon arasındaki fark nedir?

Her birini ne zaman kullanırsın?


28
Doğrusal regresyon modelinde, bağımlı değişken sürekli kabul edilirken, lojistik regresyonda kategorik, yani ayrıktır. Uygulamada, önceki regresyon ayarlarında kullanılırken, ikincisi ikili sınıflandırma veya çok sınıflı sınıflandırma için kullanılır (burada multinom lojistik lojistik regresyon). y
Pardis

Farklı bir bağlamda yazılsa da, cevabımı burada okumanıza yardımcı olabilir: Logit ve probit modeller arasındaki fark , lojistik regresyonda neler olup bittiğini daha iyi anlamanıza yardımcı olacak birçok bilgi içeren logit ve probit modeller arasındaki fark .
gung

2
Önceki tüm cevaplar doğrudur, ancak sonucunuz bir ikilik olsa bile doğrusal bir regresyon modelini tercih etmeniz için nedenler vardır. Bu sebepler hakkında buraya yazı yazdım: statistichorizons.com/linear-vs-logistic
Paul von Hippel

Yanıtlar:


111

Doğrusal regresyon, genel denklemini kullanır; burada , sürekli bir bağımlı değişkendir ve bağımsız değişkenler , genellikle süreklidir (ancak aynı zamanda, örneğin doğrusal model bir test) veya diğer ayrık alanlar. , model tarafından açıklanmayan ve genellikle "hata" olarak adlandırılan varyans için kullanılan bir terimdir. ile gösterilen bireysel bağımlı değerler , denklemi biraz değiştirerek çözülebilir:Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

Lojistik regresyon, aynı temel formülü kullanan başka bir genelleştirilmiş doğrusal model (GLM) prosedürüdür, ancak sürekli yerine, kategorik bir sonucun olasılığı için gerilemektedir. En basit haliyle, bu sadece bir sonuç değişkeni ve bu değişkenin iki durumunu - 0 veya 1 olarak düşündüğümüz anlamına gelir.Y

olasılığı için denklem şöyle görünür: Y=1

P(Y=1)=11+e(b0+(biXi))

Bağımsız değişkenleriniz sürekli veya ikili olabilir. regresyon katsayıları , size başına değişiklik olasılığını verecek şekilde , yani, ve . , oran oranı, . İngilizce'de, , birim başına faktörü ile değiştiğini .XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOddsOdds(Xi+1)Odds(Xi)Y=1ebiXi

Örnek: Vücut kitle indeksinin kan kolesterolünü (sürekli bir ölçü) nasıl öngördüğünü görmek istiyorsanız, cevabımın en üstünde anlatıldığı gibi doğrusal regresyon kullanırsınız. BMI'nin diyabetik olma ihtimalini (ikili tanı) nasıl tahmin ettiğini görmek istiyorsanız, lojistik regresyon kullanırsınız.


1
Bu güzel bir cevap gibi görünüyor, ama ne açıklayabilir için ve stand - özellikle - Eklemeniz neden olan toplamları? (Neyse, ne ϵi
toplanıyor

Bana öyle görünüyor ki Bill, ei yerine yani (Latince kısaltması) yazmak istiyordu
Michael Chernick

1
Ancak üslerin toplamındaki εi orada olmamalıdır. Modeldeki gürültü terimi yanlışlıkla oraya taşınmış gibi görünüyor. Tek toplama, p değişkenler için p katsayılarını temsil eden bis'in üzerinde olmalıdır.
Michael Chernick

9
İfadenizde hatası var . Eğer olmalıdır olmayan Lojistik bir regresyon modelindeki rastgelelik, bunların bernoulli denemeleri olmasından kaynaklanır, başarı olasılıklarında hata olmasından kaynaklanmamıştır. sen yazdın). P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
Makro

3
@ samthebrand lojistik regresyonun kendisi ikili değildir. 0 ile 1 arasında değişen olasılıklar aracılığıyla ikili yanıtlı verileri modellemek için kullanılabilir. Kargaşanlığınızı gidermek için blog yazımı utanmadan takmaya başladım .
Ben,

34

Lineer Regresyon , bağımlı değişkenlerden bağımsız değişken değişiminde ortaya çıkan bağımlı değişkeni tahmin etmede faydalı olan Bağımlı ve Bağımsız değişkenler arasında ilişki kurmak için kullanılır. Örneğin:

Bir Lineer Regresyon kullanarak, Yağmur (R) ve Şemsiye Satışları (U) arasındaki ilişki - U = 2R + 5000 olarak bulundu.

Bu denklem her 1 mm Yağmur için 5002 şemsiyeye talep olduğunu söylüyor. Böylece, Basit Regresyon kullanarak değişkeninizin değerini tahmin edebilirsiniz.

Öte yandan Lojistik Regresyon , bir olayın olasılığını belirlemek için kullanılır. Ve bu olay ikili formatta, yani 0 veya 1 olarak yakalanır.

Örnek - Bir müşterinin ürünümü satın alıp almayacağına karar vermek istiyorum. Bunun için, (ilgili) veriler üzerinde bir Lojistik Regresyon çalıştırırdım ve bağımlı değişkenim bir ikili değişken olur (1 = Evet; 0 = Hayır).

Grafiksel gösterim açısından, Doğrusal Regresyon, değerler grafik üzerine çizildiğinde, çıktı olarak doğrusal bir çizgi verir. Oysa, lojistik regresyon S şeklinde bir çizgi verir

Mohit Khurana'dan referans.


8
Re: "Lineer Regresyon Bağımlı ve Bağımsız Değişkenler arasında bir ilişki kurmak için kullanılır" - bu aynı zamanda lojistik regresyon için de geçerlidir - sadece bağımlı değişken ikilidir.
Makro

3
Lojistik Regresyon sadece ikili bir olayı tahmin etmek için değildir ( sınıf). sınıflarına genelleştirilebilir (çok terimli lojistik regresyon)2k
tgy

27

Farklılıklar DocBuckets ve Pardis tarafından çözüldü, ancak performanslarından bahsetmeyen performanslarını karşılaştırmak için bir yol eklemek istiyorum.

Doğrusal regresyon, genellikle modelin verilere en küçük kareler hatasını minimize ederek çözülür, bu nedenle büyük hatalar kuadrik olarak cezalandırılır. Lojistik gerileme tam tersidir. Lojistik kayıp fonksiyonunun kullanılması büyük hataların asimptotik bir sabite cezalandırılmasına neden olur.

Bunun neden bir sorun olduğunu anlamak için kategorik {0,1} sonuçlarda doğrusal regresyon düşünün. Modeliniz, sonuç 1 olduğunda, sonuç 1 olduğunda, hiçbir şey kaybetmediniz. Lineer regresyon, bu 38'i azaltmaya çalışacak, lojistik olmaz (bunun kadar).


WRE sonra, durumlar / olgular vardır biz fakir bir uyum olurdu yani hangi durumlarda bir lojistik size cezalandırılmış?
MSIS

1
Tam tersi: ne zaman uyumdan daha büyük sapmalar gerçekten daha kötü sonuçlar doğurursa. Örneğin, lojistik regresyon sizi bir dart tahtasına vurmakta tutmada iyidir, ancak bir boğa gözünün hoş görünmesini sağlayamaz. Ya da benzer şekilde, tahtanın yakındaki bir özlediminin komşunuzu yapıştırmakla aynı olduğunu düşünüyor.
J. Abrahamson

Mükemmel cevap. Modelin performansını ne kadar düşürdüğü konusunda herhangi bir araştırma yapıldı mı? Demek istediğim, lojistik bir regresyon yerine yanıtı = {0,1} tahmin etmek için doğrusal bir regresyon kullanılmışsa.
Tagar
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.