Doğrusal regresyon ile lojistik regresyon arasındaki fark nedir?


Yanıtlar:


270
  • Olasılık olarak doğrusal regresyon çıkışı

    Doğrusal regresyon çıktısını olasılıklar olarak kullanmak cazip gelebilir, ancak bu bir hatadır çünkü çıktı negatif olabilir ve 1'den büyük olabilirken olasılık olamaz. Regresyon aslında 0'dan küçük, hatta 1'den büyük olasılıklar üretebileceğinden lojistik regresyon getirildi.

    Kaynak: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    resim açıklamasını buraya girin

  • Sonuç

    Doğrusal regresyonda sonuç (bağımlı değişken) süreklidir. Sonsuz sayıda olası değerden herhangi birine sahip olabilir.

    Lojistik regresyonda, sonuç (bağımlı değişken) sadece sınırlı sayıda olası değere sahiptir.

  • Bağımlı değişken

    Yanıt değişkeni doğası gereği kategorik olduğunda lojistik regresyon kullanılır. Örneğin, evet / hayır, doğru / yanlış, kırmızı / yeşil / mavi, 1. / 2. / 3. / 4. vb.

    Yanıt değişkeniniz sürekli olduğunda doğrusal regresyon kullanılır. Örneğin, ağırlık, boy, saat sayısı vb.

  • Denklem

    Doğrusal regresyon Y = mX + C formunda bir denklem verir, derece 1 ile denklem anlamına gelir.

    Ancak, lojistik regresyon Y = e X + e -X formunda bir denklem verir

  • Katsayı yorumu

    Doğrusal regresyonda, bağımsız değişkenlerin katsayı yorumu oldukça basittir (yani, diğer tüm değişkenleri sabit tutarak, bu değişkente birim artışla, bağımlı değişkenin xxx oranında artması / azalması beklenir).

    Bununla birlikte, lojistik regresyonda, kullandığınız aileye (binom, Poisson, vb.) Ve bağlantıya (log, logit, ters log, vb.) Bağlıdır, yorum farklıdır.

  • Hata minimizasyon tekniği

    Doğrusal regresyon , hataları en aza indirmek ve mümkün olan en iyi uyumu sağlamak için normal en küçük kareler yöntemini kullanırken , lojistik regresyon , çözüme ulaşmak için maksimum olasılık yöntemini kullanır .

    Doğrusal regresyon genellikle modeldeki en küçük kareler hatası en aza indirilerek çözülür, bu nedenle büyük hatalar kuadratik olarak cezalandırılır.

    Lojistik regresyon tam tersidir. Lojistik kayıp fonksiyonunun kullanılması, büyük hataların asimptotik sabitliğe cezalandırılmasına neden olur.

    Bunun neden bir sorun olduğunu görmek için kategorik {0, 1} sonuçlar üzerinde doğrusal regresyon düşünün. Modeliniz sonucun 38 olduğunu tahmin ederse, gerçek 1 olduğunda hiçbir şey kaybetmezsiniz. Doğrusal regresyon 38'i azaltmaya çalışacak, lojistik (o kadar) 2 .


Y = e ^ X / 1 + e ^ -X ve Y = e ^ X + e ^ -X arasında bir fark var mı?
MMS

3
e ^ X / 1? 1'e bölen her şey aynıdır. bu yüzden fark yok. Başka bir şey sormak için anlam ifade ettiğinden eminim.
spacewanderer

Bunun eski bir iş parçacığı olduğunu biliyorum ama ifadeniz "Yanıt değişkeni doğası gereği kategorik olduğunda lojistik regresyon kullanılır. Örneğin, evet / hayır, doğru / yanlış, kırmızı / yeşil / mavi, 1. / 2. / 3. / 4., vb. "; bu ve sınıflandırma arasındaki fark nedir?
kingJulian

@kingJulian Lojistik regresyon gerçekten sınıflandırma için kullanılır. Bu göz atın , benim gibi yararlı bulabilirsiniz
QuantumHoneybees

@kingJulian: Lojistik regresyon bir sınıflandırma tekniğidir ve sınıflandırma birkaç sonucu tahmin etmeye çalışan çeşitli algoritmaları ifade eder.
user3676305

204

Doğrusal regresyonda sonuç (bağımlı değişken) süreklidir. Sonsuz sayıda olası değerden herhangi birine sahip olabilir. Lojistik regresyonda, sonuç (bağımlı değişken) sadece sınırlı sayıda olası değere sahiptir.

Örneğin, X evlerin metre karesindeki alanı içeriyorsa ve Y bu evlerin ilgili satış fiyatını içeriyorsa, ev büyüklüğünün bir fonksiyonu olarak satış fiyatını tahmin etmek için doğrusal regresyon kullanabilirsiniz. Olası satış fiyatı gerçekte olmasa da , doğrusal regresyon modelinin seçilebileceği pek çok olası değer vardır.

Bunun yerine, büyüklüğüne göre bir evin 200 bin dolardan fazla satıp satmayacağını tahmin etmek isteseniz lojistik regresyon kullanacaksınız. Olası çıktılar Evet, ev 200 bin dolardan fazla satacak ya da hayır, ev satmayacak.


3
Kanserin andrews lojistik regresyon örneğinde, y = .5 yatay bir çizgi çizebilirim (ki bu açıkça y = .5'ten geçer), eğer bu çizginin üstünde herhangi bir nokta varsa y = .5 => + ve, aksi takdirde -ve . Öyleyse neden lojistik regresyona ihtiyacım var? Ben sadece lojistik regresyon kullanmak için en iyi durum açıklamasını anlamaya çalışıyorum?
vinita

@vinita: Burada veya burada sınıflandırma problemleri için doğrusal regresyon ve harman tutma kullanılmamasına basit bir örnek.
Ankush Shah

3
lojistik regresyon kategorik veriler üzerinde lineer regresyondan daha iyi sınıflandırıcıdır. En küçük kareler yerine çapraz entropi hata fonksiyonu kullanır. Bundan dolayı, aykırı değerlere duyarlılık göstermez ve aynı zamanda en küçük kareler gibi "çok doğru" veri noktalarını cezalandırmaz.
Marcel_marcel1991

15

Sadece önceki cevapları eklemek için.

Doğrusal regresyon

Belirli bir X elemanı için çıktı değerini tahmin etme / tahmin etme problemini çözmek içindir (örneğin f (x)). Tahminin sonucu, değerlerin pozitif veya negatif olabileceği sürekli bir işlevdir. Bu durumda normalde çok sayıda örnek içeren bir girdi veri kümeniz ve her biri için çıktı değeri vardır. Amaç, bu veri kümesine bir model sığdırmaktır , böylece yeni farklı / hiç görülmemiş elemanlar için bu çıktıyı tahmin edebilirsiniz. Aşağıda, bir çizgiyi nokta kümesine uydurmanın klasik örneği verilmiştir, ancak genel olarak lineer regresyon daha karmaşık modelleri (daha yüksek polinom dereceleri kullanarak) sığdırmak için kullanılabilir:

resim açıklamasını buraya girin Sorunu çözme

Linea regresyonu iki farklı yolla çözülebilir:

  1. Normal denklem (problemi çözmenin doğrudan yolu)
  2. Gradyan iniş (Yinelemeli yaklaşım)

Lojistik regresyon

Bir öğe verildiğinde aynı şeyi N kategorisinde sınıflandırmanız gerektiğinde sınıflandırma sorunlarını çözmek içindir . Tipik örnekler, örneğin, spam olarak sınıflandırılıp sınıflandırılmayacağı bir posta ya da ait olduğu kategoriye (araç, kamyon, kamyonet, vb.) Bir araç bulmasıdır. Temelde çıktı sonlu bir ayrık değerler kümesidir.

Sorunu çözme

Lojistik regresyon problemleri ancak Gradyan inişi kullanılarak çözülebilir. Formülasyon genel olarak doğrusal regresyona çok benzer, tek fark farklı hipotez fonksiyonunun kullanılmasıdır. Doğrusal regresyonda hipotez şu şekildedir:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

Burada teta sığdırmaya çalıştığımız model ve [1, x_1, x_2, ..] girdi vektörüdür. Lojistik regresyonda hipotez fonksiyonu farklıdır:

g(x) = 1 / (1 + e^-x)

resim açıklamasını buraya girin

Bu fonksiyon hoş bir özelliğe sahiptir, temel olarak herhangi bir değeri, sınıflandırma sırasında olasılıkları işlemek için uygun olan [0,1] aralığına eşler. Örneğin bir ikili sınıflandırma durumunda g (X), pozitif sınıfa ait olma olasılığı olarak yorumlanabilir. Bu durumda normalde, temel olarak farklı sınıflar arasındaki ayrılığa karar veren bir eğri olan bir karar sınırıyla ayrılmış farklı sınıflarınız vardır. Aşağıda, iki sınıfta ayrılmış veri kümesinin bir örneği verilmiştir.

resim açıklamasını buraya girin


7

Her ikisi de çözüm için oldukça benzerdir, ancak diğerlerinin söylediği gibi, biri (Lojistik Regresyon) "uygun" (E / H veya 1/0) kategorisini tahmin etmek için, diğeri (Doğrusal Regresyon) tahmin etmek içindir. bir değer.

Yani kanser Y / N (veya olasılık) olup olmadığını tahmin etmek istiyorsanız - lojistik kullanın. Kaç yıl yaşayacağınızı bilmek istiyorsanız - Linear Regresyon kullanın!


6

Temel fark:

Doğrusal regresyon temel olarak bir fonksiyonun gizli / sürekli çıktısını vereceği anlamına gelen bir regresyon modelidir. Yani bu yaklaşım değer veriyor. Örneğin: x verildiğinde f (x) nedir

Örneğin, farklı faktörlerden oluşan bir eğitim seti ve eğitimden sonra bir mülkün fiyatı göz önüne alındığında, mülk fiyatının ne olacağını belirlemek için gerekli faktörleri sağlayabiliriz.

Lojistik regresyon temel olarak bir ikili sınıflandırma algoritmasıdır, bu da burada fonksiyon için gizli değerli çıktı olacağı anlamına gelir. Örneğin: belirli bir x için f (x)> eşiği onu 1 olarak sınıflandırın, başka bir 0 olarak sınıflandırın.

Örneğin, eğitim verisi olarak bir beyin tümör boyutu kümesi verildiğinde, benin veya benign bir tümör olup olmadığını belirlemek için boyutu girdi olarak kullanabiliriz. Bu nedenle burada çıktı ya 0 ya da 1'dir.

* burada fonksiyon temel olarak hipotez fonksiyonudur


5

Basitçe söylemek gerekirse, lineer regresyon, olası sürekli ve sonsuz bir değeri aşan bir regresyon algoritmasıdır; lojistik regresyon, bir etikete (0 veya 1) ait girişin 'olasılığını' veren bir ikili sınıflandırıcı algoritması olarak kabul edilir.


Çok şükür Olasılıkla ilgili notunu okudum. İkili bir sınıflandırıcı olarak lojistik yazmak üzereydi.
HashRocketSyntax

4

Regresyon sürekli değişken, Lineer ise y ve x arasında doğrusal bir ilişki olduğu anlamına gelir. Ex = Yılların verdiği deneyimden maaş tahmin etmeye çalışıyorsunuz. Yani burada maaş bağımsız değişkendir (y) ve deneyim yılı değişkendir (x). y = b0 + b1 * x1 Doğrusal regresyon Gözlem verileriniz için bize en uygun çizgiyi verecek olan b0 ve b1 sabitinin optimum değerini bulmaya çalışıyoruz. X = 0'dan çok büyük değere sürekli değer veren bir çizgi denklemidir. Bu çizgiye Lineer regresyon modeli denir.

Lojistik regresyon sınıflandırma tekniğidir. Terim regresyonuyla yanlış yönlendirilmemelidir. Burada y = 0 veya 1 olup olmadığını tahmin ediyoruz.

Burada önce aşağıdaki formülden verilen x (p = y = 1) (y = 1 wp olasılığı) bulmamız gerekir.

prob

Olasılık p aşağıdaki formülle y ile ilişkilidir

s

Örn. =% 50'den fazla kanser olma şansına sahip tümörün ve% 50'den az kanser olma şansına sahip tümörün sınıflandırılmasını yapabiliriz. 5

Burada kırmızı nokta 0, yeşil nokta 1 olarak tahmin edilecektir.


1

Kısacası: Doğrusal Regresyon sürekli çıktı verir. yani bir değer aralığı arasındaki herhangi bir değer. Lojistik Regresyon ayrık çıktılar verir. yani Evet / Hayır, 0/1 tür çıkışlar.


1

Yukarıdaki yorumlarla daha fazla anlaşamıyorum. Bunun üstünde,

Doğrusal Regresyonda, artıkların normal olarak dağıldığı varsayılmaktadır. Lojistik Regresyonda, artıkların bağımsız olması, ancak normal olarak dağılmaması gerekir.

Doğrusal Regresyon, açıklayıcı değişkenin değerinde sabit bir değişimin, yanıt değişkeninde sürekli bir değişimle sonuçlandığını varsayar. Yanıt değişkeninin değeri bir olasılığı temsil ediyorsa bu varsayım geçerli değildir (Lojistik Regresyonda)

GLM (Genelleştirilmiş doğrusal modeller) bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişki olduğunu varsaymaz. Ancak logit modelinde link fonksiyonu ile bağımsız değişkenler arasında doğrusal bir ilişki olduğunu varsayar.


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

Basitçe ifade etmek gerekirse, eğer doğrusal regresyon modelinde y = 1 ve y = 0 tahmini için eşikten (örneğin = 0.5) çok daha fazla test durumu gelirse. Bu durumda hipotez değişecek ve kötüleşecektir.Bu nedenle sınıflandırma problemi için doğrusal regresyon modeli kullanılmamaktadır.

Başka bir Sorun, sınıflandırma y = 0 ve y = 1 ise, h (x)> 1 veya <0 olabilir.


0

Lojistik Regresyon, Evet / Hayır, Düşük / Orta / Yüksek vb. / Yüksek, 0-9 arası basamaklar vb.)

Öte yandan, doğrusal regresyon bağımlı değişkeniniz (y) sürekli ise. y = mx + c basit bir doğrusal regresyon denklemidir (m = eğim ve c y kesişimidir). Çok doğrusal regresyonun 1'den fazla bağımsız değişkeni vardır (x1, x2, x3 ... vb.)


0

Doğrusal regresyonda sonuç süreklidir, lojistik regresyonda ise sonuç sadece sınırlı sayıda olası değere sahiptir (kesikli).

örnek: Bir senaryoda, verilen x değeri, metre kare cinsinden bir çizimin boyutudur ve y'nin tahmin edilmesi yani çizimin hızı doğrusal regresyona girer.

Bunun yerine, büyüklüğüne göre, arsanın 300000 R'den fazla satıp satmayacağını tahmin etmek isterseniz, lojistik regresyonu kullanırsınız. Olası çıktılar Evet, arsa 300000 R'den fazla satacak veya Hayır.


0

Doğrusal Regresyon durumunda sonuç süreklidir, Lojistik Regresyon durumunda ise sonuç ayrıktır (sürekli değil)

Doğrusal regresyon gerçekleştirmek için bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişkiye ihtiyacımız vardır. Ancak Lojistik regresyon gerçekleştirmek için bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişki gerektirmiyoruz.

Doğrusal Regresyon, verilere düz bir çizgi yerleştirmekle ilgilidir, Lojistik Regresyon ise verilere bir eğri yerleştirmekle ilgilidir.

Doğrusal Regresyon, Makine Öğrenimi için bir regresyon algoritması iken Lojistik Regresyon, makine öğrenimi için bir sınıflandırma Algoritmasıdır.

Doğrusal regresyon, bağımlı değişkenin gauss (veya normal) dağılımını varsayar. Lojistik regresyon bağımlı değişkenin binom dağılımını varsayar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.