Lojistik regresyona neden bir makine öğrenme algoritması denir?


19

Doğru bir şekilde anladıysam, bir makine öğrenme algoritmasında, model deneyimlerinden öğrenmelidir, yani model yeni vakalar için yanlış tahmin verdiğinde, yeni gözlemlere adapte olmalı ve zamanla model giderek daha iyi hale geliyor . Lojistik regresyonun bu özelliği olduğunu görmüyorum. Peki neden hala bir makine öğrenme algoritması olarak kabul ediliyor? “Öğrenme” anlamında lojistik regresyon ile normal regresyon arasındaki fark nedir?

Rastgele ormanlar için de aynı sorum var!

Ve "makine öğrenimi" nin tanımı nedir?


4
Sorunuzu dilbilgisel netlik için düzenledim, ancak genel olarak ne demek istediğinizden emin değilim ... Lojistik Regresyon ML'nin altına düşüyor çünkü bu bir sınıflandırma algoritması. Makine Öğrenimi, algoritmanın uyarlanabilir olması gerektiği anlamına gelmez (yeni gözlemlerden öğrenilen algoritmalar olmasına rağmen). Uyum sağlama, genellikle ortak olasılığı modelleyen üretken makine öğrenme algoritmalarıyla elde edilen bir uygulama seçimidir.
Zhubarb

12
"Makine öğrenimi" oldukça gevşek bir kavramdır. Gerçekten, bir modelin takılmasını içeren tüm istatistiksel prosedürler makine öğrenimi olarak düşünülebilir. (Model bağlantısının bir bilgisayar tarafından yapılabileceğini varsayarsak!). Bu yüzden "büyük veri", "makine öğrenimi", vs istatistik ne olduğu hakkında suları muddying topluluklar ile sinirli bazı istatistikçi olsun (ve değil!)
P.Windridge


1
@ P.Windridge: "bir model takmayı içeren tüm istatistiksel prosedürler makine öğrenimi olarak düşünülebilirse", bu yüzden makine öğrenmesini ve istatistiği neden ayırt etmeliyiz anlamıyorum
Metariat

4
@XuanQuangDO Makine öğrenimi ve istatistikleri muhtemelen ayırmamalıyız.
Sycorax, Reinstate Monica

Yanıtlar:


21

Makine Öğrenimi iyi tanımlanmış bir terim değildir.

Aslında, Google "Makine Öğrenmesi Tanımı" kullanıyorsanız, ilk iki şey oldukça farklıdır.

Gönderen WhatIs.com ,

Makine öğrenimi, bilgisayarlara açıkça programlanmadan öğrenme yeteneği sağlayan bir yapay zeka türüdür. Makine öğrenimi, yeni verilere maruz kaldıklarında kendilerini büyümeyi ve değişmeyi öğretebilecek bilgisayar programlarının geliştirilmesine odaklanır.

Gönderen Wikipedia ,

Makine öğrenimi, verilerden öğrenebilen ve veriler üzerinde tahminlerde bulunabilecek algoritmaların inşasını ve çalışmasını araştırır.

Lojistik regresyon şüphesiz Wikipedia tanımına uyar ve bunun WhatIs tanımına uyup uymadığını tartışabilirsiniz.

Kişisel olarak Machine Learning'i Wikipedia'nın yaptığı gibi tanımlıyorum ve bunu bir istatistik alt kümesi olarak görüyorum.


1
Söylediklerinizin çoğuna katılıyorum, ancak bunun bir istatistik alt kümesi olması. Büyük bir örtüşmesi var, ancak pekiştirici öğrenme gibi bir istatistik alt kümesi olarak düşünülemeyecek öğrenme türleri var.
George

2
Bunlar iyi kaynaklar değil.
Neil G

@George Doğru, ancak yüzleşelim, bir etiket uygulamak zorunda olsaydınız, tüm veri toplama, analiz ve modelleme metodolojileri, makine öğrenimi, denetimli veya denetimsiz, parametrik veya parametrik olmayan, tüm istatistikler. ML istatistik alanında uzmanlaşmış bir alandır.
RobertF

@RobertF Ben katılmıyorum. Makine öğrenimi, makinelerin nasıl öğrenebileceğini inceleyen alandır. ML'de kullanılan yöntemlerin çoğunun istatistiksel yöntemler olarak kabul edilebileceğini kabul ediyorum, ancak alan doğal olarak bir istatistik alt alanı değildir. Örneğin, Markov karar süreçlerinin istatistiksel yöntemler olduğunu düşünmüyorum.
George

1
@George Ayrık zaman Markov modelleri olasılık modelidir. Bir olasılık modelinin (örn. Markov karar süreçleri) bilinmeyen parametrelerini tahmin ettikten sonra, bu istatistiksel bir prosedürün ders kitabı tanımıdır. İstatistik olarak değil, ML olarak adlandırılabilecek ana faaliyet sınıfının, satranç oynayan bir robot oluşturmak gibi belirli uygulamalar olduğunu düşünüyorum. Temeldeki algoritmalar şüphesiz olasılık ve istatistikleri içerecektir, ancak uygulama gerçekten "istatistik" değildir. Genomik araştırmasının istatistikleri nasıl yoğun bir şekilde kullandığı gibi, ancak bunlar kesinlikle farklı alanlardır.
ahfoss

20

Machine Learning sıcaktır ve paranın olduğu yerdir. İnsanlar şu anda sıcak olan her şeyi satmaya çalıştıkları şeyleri derler ve bu nedenle "satarlar". Bu yazılım satıyor olabilir. Bu, kendilerini terfi ettirmeye çalışan mevcut çalışanlar, potansiyel çalışanlar, danışmanlar vb. gelişmiş bir seks uygulaması yapmak için anahtar olarak Machine Learning yapan sıcak yeni başlangıcı. Yani yazılım Makine Öğrenimi ve insanlar Makine Öğrenimi uzmanlarıdır, çünkü sıcak olan ve bu nedenle satan şey ... en azından şimdilik.

30 yıldan fazla bir süre önce her türlü doğrusal ve doğrusal olmayan istatistiksel model uydurdum. O zamanlar Makine Öğrenimi denmiyordu. Şimdi, çoğu olurdu.

Tıpkı herkes ve amcalarının bir Veri "Bilim Adamı" olması gibi. Bu sıcak, sözde seksi, bu yüzden insanların kendilerini böyle çağırıyor. Ve birileri işe almak için bütçe onay almak zorunda yöneticileri işe konum olarak listeler. Dolayısıyla, matematik, olasılık, istatistik, optimizasyon veya sayısal / kayan nokta hesaplaması hakkında ilk şeyi bilmeyen, uygulamada şüpheli doğruluk ve sağlamlık içeren bir R veya Python paketi kullanır ve Makine Öğrenimi algoritması olarak etiketlenir, anlamadıkları verilere başvurmak ve kendilerine bunu yapma deneyimlerine dayanan bir Veri Bilimcisi diyoruz.

Bu kulağa saçma gelebilir, ancak bunun durumun özü olduğuna inanıyorum.

Düzenle: 26 Eylül 2019'da tweet gönderildi:

https://twitter.com/daniela_witten/status/1177294449702928384

Daniela Witten @daniela_witten "Para biriktirdiğimizde yapay zekâ, işe aldığımızda makine öğrenimi ve işi yaptığımızda lojistik gerileme."

(Bunu kimin geldiğinden emin değilim ama bu bir mücevher 💎)


16
Bu fikirlerin bazılarını paylaştığımı ve geri kalanına sempati duyduğumu saklamayacağım. Bununla birlikte, bir SE sitesinde bir cevap olarak uygun olmaları için bir tür desteğe ihtiyaçları vardır. Açıkçası bu, tümdengelimli akıl yürütme yoluyla olmayacaktır: gerçekleri ekleyerek ve / veya yetkili kaynaklara atıfta bulunmak zorundadır. Bunu yapabilseydin çok iyi olurdu!
whuber

10
Kolayca bugün bu sitede okuduğum en eğlenceli gönderi ve bunun çoğuna katılıyorum. Ama @whuber ile şu anki haliyle soruyu gerçekten cevaplamadığını kabul etmeliyim.
Nick Cox

6
Küçük bir açıklama olarak. Hem yazılım geliştirmede hem de kötü huylu "Veri Bilimi" nde çalışıyorum. Bir çok insanla röportaj yapıyorum. İş yapma becerisine sahip olmayan yazılım geliştirme pozisyonları ve veri bilimi pozisyonları için görüşme yapan kişilerin oranı hemen hemen aynıdır. Peki veri bilimi unvanı hakkında özel olan nedir? İnsanlar tüm teknik disiplinlerde becerilerini şişireceklerdir. Yığın değişimini programlamada aynı şikayetlerin çoğunun olduğundan eminim.
Matthew Drury

7
Bu bir cevaptan çok bir rant gibi geliyor. Elbette, isimler değişir, markalaşma önemlidir ve makine öğrenimi sıcaktır (ve dolayısıyla ne yaptığını bilmeyen kendi kendini ilan eden pratisyenlere sahiptir). Ancak, bunu hem araştırma hem de endüstride son derece önemli hale gelen bir alanı küçümsemek için bir argüman olarak kullanmak benim için ucuz görünüyor.
Marc Claesen

7
@ MarkL.Stone Ben durumunuzu anlıyorum ve orada birçok terimsiz sıcak ekleme terim olduğunu tamamen katılıyorum . Ancak, bence bu insanların iş bulmaları (ve tutmaları!) Yönetimin hatasıdır. Yöneticiler analistlerin sonuçlarından memnun değilse ve tüm analistlere bireysel becerilere / sonuçlara bakılmaksızın aynı davranıyorsa, yönetim kötü analistler kadar eşit derecede yetersizdir. Nakit kokusu olan herhangi bir işte quacks vardır, örneğin ilaç alın. Veri bilimcileri / makine öğrenen çocuklar hakkındaki genellemeler, tüm analistlere güvensizlik kadar kötüdür.
Marc Claesen

18

Diğerlerinin daha önce de belirttiği gibi, istatistikler, makine öğrenimi, yapay zeka ve benzeri arasında net bir ayrım yoktur, bu yüzden bir tuz tanesi ile herhangi bir tanım alın. Lojistik regresyon muhtemelen makine öğreniminden ziyade istatistik olarak etiketlenirken, sinir ağları tipik olarak makine öğrenimi olarak etiketlenir (sinir ağları genellikle sadece lojistik regresyon modellerinin bir koleksiyonu olmasına rağmen).

Benim düşünceme göre, makine öğrenimi, bir şekilde verilerden, tipik olarak bir şekil ya da formda bir model oluşturarak öğrenebilen yöntemleri inceler. SVM, sinir ağları, rastgele ormanlar ve diğer birçok teknik gibi lojistik regresyon, modeli oluştururken verilerden öğrenir .

Doğru anladıysam, bir Makine Öğrenimi algoritmasında, model deneyimlerinden ders almak zorundadır

Makine öğrenimi genellikle bu şekilde tanımlanmaz. Tüm makine öğrenme yöntemleri, dinamik olarak yeni verilere uyum sağlayan modeller sunmaz (bu alt alana çevrimiçi öğrenme denir ).

“Öğrenme” anlamında lojistik regresyon ile normal regresyon arasındaki fark nedir?

Birçok regresyon yöntemi de makine öğrenimi (örneğin SVM) olarak sınıflandırılır.


2
Gözetimsiz öğrenmeye hala (makine) öğrenme denir, bu nedenle bir şeyi "makine öğrenimi" olarak sınıflandırmak için herhangi bir geri bildirim döngüsüne sahip olmanız gerekmez.
vsz

Bu sorunun konusu değil, ama bu cevap AI ve ML arasındaki ayrımı da dile getiriyor. Bu AI tanımını her zaman sevdim: en.wikipedia.org/wiki/…
Davis Yoshida

10

Lojistik regresyon, 1958'de istatistikçi DR Cox tarafından icat edildi ve bu nedenle makine öğrenimi alanının önüne geçti. Lojistik regresyon bir sınıflandırma yöntemi değildir , çok şükür. Doğrudan bir olasılık modelidir.

Bir algoritmanın iki aşamaya sahip olması gerektiğini düşünüyorsanız (ilk tahmin, o zaman "tahmin" hataları "düzeltin) bunu göz önünde bulundurun: Lojistik regresyon bunu ilk seferinde doğru yapar. Yani, katkı (boşlukta) modelleri alanında. Lojistik regresyon, birçok makine öğrenme yönteminin doğrudan bir rakibidir ve öngörücüler çoğunlukla katkı maddesi ile hareket ettiğinde (veya konu bilgisi etkileşimleri doğru olarak önceden belirlediğinde) bunların çoğundan daha iyi performans gösterir. Bazıları lojistik regresyonu bir tür makine öğrenimi olarak adlandırır, ancak çoğu kabul etmez. Bazı makine öğrenme yöntemlerini (sinir ağları örnektir) istatistiksel modeller olarak adlandırabilirsiniz.


1
Funnily Amazon'un makine öğrenimi hizmeti, sınıflandırma görevleri için yalnızca bir algoritma (afaik) kullanır - lojistik regresyon - p aws.amazon.com/machine-learning/faqs
stmax

Verileri çevrimiçi bir öğrenme probleminde olduğu gibi kademeli olarak sunabilirsiniz . Bu durumda, lojistik regresyon "ilk seferde doğru yapmaz". Giderek öğrenirim. Standart bir kaybı vardır ve güncellemesi degrade inişin standart uygulamasıdır. Lojistik regresyon, gördüğüm her makine öğrenimi ders kitabında.
Neil G

1
β

@FrankHarrell: Doğru ve lojistik regresyon probleminin çözümünün maksimum olasılık tahmini bu şekilde devam ediyor.
Neil G

Lojistik regresyon "Makine Öğrenimi" teriminden önce gelebilir , ancak alandan önce gelmez : SNARC 1951'de geliştirildi ve bir öğrenme makinesiydi . Ayrıca, lojistik regresyonun sadece olasılıkları modellediği ve kendi başına bir sınıflandırıcı olmadığı ısrarı saç bölücüdür. Bu mantıkla, bir sinir ağı bir sınıflandırıcı değildir (çıkış katmanı ikili nöronlardan oluşmadıkça, ancak bu geri çoğalmayı imkansız kılacaktır).
Igor

8

Buradaki cevapların çoğuna katılmıyorum ve Machine Learning'inçok hassas bir kapsamı ve İstatistiklerden kesin bir ayrımı vardır. ML, sadece son yıllarda kendi alanı dışında uygulamalar bulan uzun bir geçmişe sahip bilgisayar biliminin bir alt alanıdır. ML'nin baba alanı ve uygulama alanı Yapay Zeka (robotik, örüntü tanıma yazılımı vb.) İçindedir, bu nedenle sadece "Büyük Veri" veya "Veri Bilimi" gibi bir "sıcak terim" değildir. Diğer yandan, istatistikler ("devlet" kelimesinden gelir) sosyal ve ekonomik bilimler içinde makineler için değil, insanlar için bir araç olarak geliştirilmiştir. ML istatistiklerden ayrı olarak evrimleşmiştir ve istatistiksel olarak ilkelere yoğun bir şekilde dayanmaya başlamasına rağmen, hiçbir şekilde bir istatistik alt alanı değildir. ML ve istatistikler birbiriyle örtüşen alanlar değil tamamlayıcıdır.

Uzun cevap :

Adından da anlaşılacağı gibi, yazılım / makineler için ML yöntemleri, insanlar için istatistiksel yöntemler yapılmıştır. Hem ML hem de istatistikler verilerle ilgili tahminlerle ilgilenir, ancak ML yöntemleri parametrik olmayan otomatik bir yaklaşımı takip ederken, istatistiksel yöntemler ek bir açıklayıcı faktörle çok sayıda manuel model oluşturma çalışması gerektirir. Bu, ML algoritmalarının yapay zeka araştırmalarında robotik yazılıma entegre edilmesi amaçlanan otomatik tahmin yapma aracı olarak geliştirildiğini düşünüyorsanız (örn. Ses ve yüz tanıma amacıyla) mükemmeldir. Bir "makine" bir tahmin yaptığında, bunun arkasındaki nedenleri umursamaz. Bir makine, e-postayı spam veya spam olmayan olarak sınıflandıran bir modelin arkasındaki sürücüleri / yordayıcıları bilmekle ilgilenmez, yalnızca en iyi tahmin doğruluğuna sahip olmak ister.Kara kutular , bir modelleri olmadığı için değil, modelin algoritmik olarak inşa edilmiş olması ve ne insan ne de makine tarafından görülmesi amaçlanmamıştır.

ML'de “eğitim” kavramı hesaplama gücüne dayanırken, parametre tahmini için OLS tipi yöntemlerle istatistiksel model oluşturma bir insan uzmanın bilgisine dayanmaktadır. Çoklu regresyon senaryosunda, modelini seçmek ve gerekli tüm istatistiksel varsayımları doğrulamak için uzman değerlendirmesini kullanmak kesinlikle istatistikçiye bağlıdır. Bir istatistikçinin amacı sadece kalıplar bulmak ve bunları tahminler için kullanmak değil, aynı zamanda verilerini ve problemini ML'den çok daha derinlemesine anlamaktır.

Tabii ki bazı durumlarda ML ve istatistik birçok disiplinde olduğu gibi örtüşmektedir. Lojistik regresyon bu olaylardan biridir; başlangıçta basit Perceptron'a (en temel ML tekniklerinden biri) çok benzeyen istatistiksel bir yöntem, bazıları tarafından bir ML yöntemi olarak görülür.


1
Belki de parametrik olmayan istatistikleri ve parametrik olmayan istatistiksel modelleri ve model oluşturmayı hiç duymadınız mı?
Mark L. Stone

1
Evet, parametrik olmayan istatistikleri günlük olarak kullanıyorum. ML'nin istatistiklere parametrik olmayan bir cevap olduğunu söylemedim, sadece parametrik olmayan ML yöntemlerinin bir yan etki olarak geldiğini fark ettim. Parametrik olmayan istatistikler, parametrik istatistikler başarısız olduğunda istatistikçinin alternatif bir seçeneğidir, ancak yine de bir uzmanın bilinçli seçiminin sonucudur. Muhtemelen görüşümü iletmekte yeterince net değilim ve bunun için özür dilerim.
Digio

3
Parametrik olmayan modeller yapan, her zaman istatistik yapan çok sayıda istatistikçi var. Yarı parametrik bir şekilde de kullanılabilmesine rağmen, bir istatistikçi tarafından icat edilen, istatistikçiler tarafından kullanılan ve oldukça parametrik olmayan Ampirik Olasılığı duydunuz mu? Bu yüzden sana katılmıyorum, ama seni küçümsemedim.
Mark L. Stone

1
Katılmıyorum iyi Mark ama karşı tezin ne hakkında olduğunu hala tam olarak anlayamıyorum. Parametrik olmayan istatistiklerin makine öğrenmesine ihtiyacı olmadığını mı ima ediyorsunuz (asla reddetmediğim bir şey)? Yoksa makine öğrenmesinin aslında parametrik olmayan istatistikler için başka bir isim olduğunu iddia ediyor musunuz (inkar ettiğim bir şey)?
Digio

3
Burada katılmamanız gereken çok şey var. Modern istatistiksel araçlarla birlikte kullanıldığında, çok değişkenli regresyon modelleri, ML ile esnek ve oldukça rekabetçi olabilir.
Frank Harrell

3

Makine öğrenimi oldukça gevşek bir şekilde tanımlanmıştır ve regresyon modellerinin - sadece lojistik regresyon modellerini değil - aynı zamanda verilerden “öğrendiğini” düşünmekte haklısınız. Bunun makine öğrenmesinin gerçekten istatistik mi yoksa istatistiklerin gerçekten makine öğrenimi mi olduğu ya da bunlardan herhangi birinin önemli olup olmadığı konusunda emin değilim.

Ancak, bir algoritmanın hatalarını tekrar tekrar öğrenmesinin gerekli olduğunu düşünmüyorum . Çoğu yöntem, bazı parametreleri hesaplamak için bir eğitim seti kullanır ve daha sonra bazı ek test verileri üzerinde tahminler yapmak için bu sabit parametreleri kullanır. Eğitim süreci, parametrelerin tekrar tekrar güncellenmesini içerebilir (geri yayılımda olduğu gibi), ancak zorunlu olarak (k- En yakın komşular eğitim sırasında hiçbir şey yapmaz!). Her durumda, test zamanında, gerçek-doğruluk verilerine bile erişemeyebilirsiniz.

Bununla birlikte, bazı algoritmalar tahmin hatalarından öğreniyor - bu özellikle bir ajanın bazı eylemleri gerçekleştirdiği, sonucunu gözlemlediği ve daha sonra sonucu gelecekteki eylemleri planlamak için kullandığı takviye öğreniminde yaygındır . Örneğin, bir robot vakum, tüm yerleri eşit sıklıkta temizlediği bir dünya modeli ile başlayabilir ve daha sonra kirli yerleri (kir bularak "ödüllendirildiği") daha fazla temizlemeyi ve yerleri daha az temizlemeyi öğrenebilir.

Çevrimiçi veya artımlı algoritmalar yeni egzersiz verileriyle tekrar tekrar güncellenebilir. Bu mutlaka modelin tahmin doğruluğuna bağlı değildir, ancak mevcut model göz önüne alındığında, yeni verilerin çok olası görünmemesi durumunda, ağırlıkların daha agresif bir şekilde güncellendiği bir algoritma hayal edebiliyorum. Lojistik regresyon için çevrimiçi versiyonlar vardır: örneğin, McMahan ve Streeeter (2012) .


3

Sonunda anladım. Artık istatistiksel model uydurma ve makine öğrenmesi arasındaki farkı biliyorum.

  • Bir modele (regresyon) uyursanız, bu istatistiksel model uydurma
  • Bir model (regresyon) öğrenirseniz, bu makine öğrenimi

Lojistik bir regresyon öğrenirseniz, bu bir makine öğrenme algoritmasıdır.

Yorum: Eski bir moruk olduğum için affedin, ama insanların bir model öğrenmek ya da bir gerileme öğrenmek hakkında konuşurken duyduğumda, Jethro'yu "Beni bir eğitim öğrendim" diye düşündürüyor.

İPLİK SONU


??? Bir lojistik modeli de öğrenebilirim, neden bahsediyorsun?
SmallChess

1
@Öğrenci T, bir lojistik modele uyuyorsanız, bu istatistiksel model uydurmadır. Eğer bir lojistik modeli öğrenirseniz, bu makine öğrenmesi demektir, yani bu gerçekten farklı alanlar tarafından kullanılan bir terminoloji meselesidir. Aynı şey farklı alanlara göre farklı şeyler olarak adlandırılabilir (İstatistik ve Makine Öğrenimi).
Mark L. Stone

0

Lojistik regresyon (ve daha genel olarak GLM) Makine Öğrenimine ait DEĞİLDİR ! Aksine, bu yöntemler parametrik modellemeye .

Hem parametrik hem de algoritmik (ML) modeller, verileri farklı şekillerde kullanır. Algoritmik modeller verilerden yordayıcıların öngörüye nasıl eşlendiğini öğrenir, ancak gözlemleri üreten süreç hakkında (aslında başka bir varsayım) herhangi bir varsayımda bulunmazlar. Girdi ve çıktı değişkenleri arasındaki temel ilişkilerin karmaşık ve bilinmeyen olduğunu düşünürler ve bu nedenle, resmi bir denklem uygulamaktan ziyade neler olduğunu anlamak için veriye dayalı bir yaklaşım benimserler.

Öte yandan, parametrik modellere, incelenen sürecin bazı bilgilerine dayanarak bir önsel reçete edilir , verileri parametrelerini tahmin etmek için kullanır ve uygulamada nadiren tutulan çok gerçekçi olmayan varsayımlar yapar (bağımsızlık, eşit varyans ve Hataların normal dağılımı).

Ayrıca parametrik modeller (lojistik regresyon gibi) küresel modellerdir. Verilerdeki yerel kalıpları yakalayamazlar (RF veya Yükseltilmiş Ağaçlar gibi temel modeller olarak ağaçları kullanan ML yöntemlerinin aksine). Bkz. Bu kağıt sayfası 5. Bir düzeltme stratejisi olarak, yerel (yani parametrik olmayan) GLM kullanılabilir (örneğin, locfit R paketine bakınız).

Genellikle, altta yatan fenomen hakkında çok az bilgi mevcut olduğunda, veri odaklı bir yaklaşım benimsemek ve algoritmik modelleme kullanmak daha iyidir. Örneğin, girdi ve çıktı değişkenleri arasındaki etkileşimin doğrusal olmadığı bir durumda lojistik regresyon kullanırsanız, modeliniz açıkça yetersiz olacak ve çok fazla sinyal yakalanmayacaktır. Bununla birlikte, süreç iyi anlaşıldığında, parametrik modeller, teorik açıdan güçlü olan her şeyi özetlemek için resmi bir denklem sağlama avantajına sahiptir.

Daha ayrıntılı bir tartışma için Leo Breiman'ın bu mükemmel belgesini okuyun .


4
Lütfen lojistik regresyonu anlamak için zaman ayırın. Herhangi bir dağıtım varsayımı yapmaz. ML tarafından yapılanla aynı bağımsızlık varsayımını yapar. ML, lojistik regresyondan çok daha büyük numune boyutları gerektirir. Örneğin, rastgele ormanlar ve SVM aday özellik başına 200 olayın kararlı olmasını gerektirebilirken, lojistik regresyon tipik olarak aday değişken başına 200 olaya ihtiyaç duyabilir.
Frank Harrell

2
Sen lojistik regresyon anlamak için zaman almalıdır! Bağlantının logit işlevi olduğu Genelleştirilmiş Doğrusal Modeldir. Parametriktir. Gözlemlerin IID olduğunu varsayar. Ayrıca, doğrusal olmayan ilişkileri yakalamada iyi şanslar. Ayrıca, cümlenizin ikinci kısmı ne anlama geliyor? Bana göre, bir özellik bir değişkendir (?)
Antoine

5
Konuyla ilgili çok sayıda iyi kitap var ve devam etmeden önce onlara danışmanızı tavsiye ederim. Lojistik regresyon özdeş dağılımlar üstlenmez ve aslında hiç dağıtım varsaymaz. ML'de korelasyon yapısını nasıl etkilediğinizi gösteremediğiniz sürece, her iki yaklaşım da bağımsızlığı varsayar. Regresyon spline'ları lojistik regresyonda doğrusallık varsayımlarını gevşetmek için 1982'den beri kullanılmaktadır. Bu tartışma için bir spline'da genişletilmedikçe feature = değişkeni.
Frank Harrell

5
Breiman işleri oldukça iyi anlamıştı. Sadece 1982 sonrası lojistik regresyondaki gelişmelerle uğraşmadı, örneğin cezalandırılmış maksimum olabilirlik tahmini, regresyon spline'ları ve veri azaltma yöntemleri ile kombinasyonlar. Lojistik regresyonun tek ciddi kısıtlaması, diğer yöntemler gibi, etkileşimleri ararken ve önceden belirtilmemişse doğru etkileşimleri bulmanın iyi olmamasıdır. Bunu yapabildiğini iddia eden yöntemlerin çoğu tekrarlanabilir bulgularla sonuçlanmaz. Ayrıca, Breiman sahte bir model tarafından optimize edilebilen yanlış bir doğruluk puanı kullandı.
Frank Harrell

3
@Antoine: "lojistik regresyon neden ML'den radikal olarak farklıdır". ML'deki bazı yöntemlerin (en belirgin şekilde SVM) lojistik regresyonla çok ilişkili olduğuna dikkat edin. Frank'in yazdığı gibi, çoklu etkileşimler hariç olmak üzere, doğrusal olmama ve cezalandırma ile regülasyon SVM ve diğer ML yöntemlerine çok benzer sonuçlar verir. Bazı makalelerin, lojistik regresyonu olumsuz bir şekilde çerçevelemek için bir stat101 lojistik modeline karşı bir ML yöntemine dayalı performans geliştirmelerini nasıl gösterdiğini şaşırtmaya devam ediyor.
Thomas Speidel

-1

Diğer cevapların Makine Öğreniminin ne olduğunu (veya belirttikleri gibi, bulanık bir şey) tanımlamakta iyi bir iş çıkardığını düşünüyorum. Lojistik Regresyonun (ve daha genel çok terimli versiyonunun) çok yaygın olarak yapay sinir ağlarında sınıflandırma yapmak için bir araç olarak kullanıldığını ekleyeceğim (ki bence seçtiğiniz mantıklı makine öğrenme tanımı ile açıkça örtülüdür) Yapay sinir ağına lojistik regresyon, bunu hemen bu bağlamda düşünürler. Makine öğreniminde ağır bir vurucuya bağlanmak kendiniz bir makine öğrenme tekniği olmanın iyi bir yoludur ve bir dereceye kadar çeşitli regresyon teknikleriyle olan şey olduğunu düşünüyorum, ancak uygun makine öğrenme teknikleri olmaktan kaçınmam kendi içinde.


Lojistik regresyonun bir sınıflandırıcı değil, doğrudan olasılık tahmin yöntemi olduğunu unutmayın.
Frank Harrell

Dr.Harrell'in noktası hakkında daha fazla bilgi için lütfen buradaki yazımı görün. stats.stackexchange.com/questions/127042/…
Sycorax,

@FrankHarrell Olasılıkları sınıflandırma için de kullanabiliriz, bu yüzden gerçekten bir sınıflandırıcıdır.
SmallChess

@ StudentT4 Bu daha yanlış olamazdı. Doğrudan olasılık tahmin ediciyse. Lojistik modelin nihai sonucunu nasıl kullanacağınız size bağlıdır. Mantığınıza göre örnek ortalama bir sınıflandırıcıdır.
Frank Harrell

-1

Bence "yinelemeli" herhangi bir prosedür makine öğrenimi olarak değerlendirilebilir. Regresyon, makine öğrenimi olarak düşünülebilir. Elle yapabiliriz, ancak mümkünse uzun zaman alacaktır. Şimdi bizim için yinelemeleri yapan bu programlara, makinelere sahibiz. Bir çözüme, en iyi çözüme veya en iyi uyuma daha da yaklaşır. Böylece, "makine öğrenimi". Elbette sinir ağları gibi şeyler makine öğrenimi konusunda en çok dikkat çeken şeydir, bu nedenle genellikle makine öğrenmesini bu seksi prosedürlerle ilişkilendiririz. Ayrıca, "denetimli" ve "denetlenmemiş" makine öğrenimi arasındaki fark burada önemlidir.


-2

Çoğu insanın yaptığı çok yaygın bir hatadır ve burada da görebilirim (neredeyse herkes tarafından yapılır). Bunu ayrıntılı olarak açıklayayım ... Lojistik Regresyon ve doğrusal Regresyon modeli, her ikisi de parametrik model ve Makine Öğrenimi Tekniğidir. Sadece model parametrelerini (teta) tahmin etmek için kullandığınız yönteme bağlıdır. Doğrusal Regresyon ve Lojistik regülasyonunda model parametrelerini bulmanın 2 yolu vardır.

  1. Gradyan İniş Tekniği : Burada parametrelere rastgele değerler atayarak ve maliyet fonksiyonunu (hata) bularak başlıyoruz. Her yinelemede parametrelerimizi güncelliyoruz ve maliyet işlevini en aza indiriyoruz. Belirli sayıda yinelemeden sonra, maliyet fonksiyonu istenen değerlere indirgenmiştir ve karşılık gelen parametre değerleri nihai değerlerimizdir. Bir makine öğrenme tekniğinin bunu yapması gerekiyordu. Dolayısıyla, Degrade İniş tekniğini kullanıyorsanız, Lojistik regresyon bir makine öğrenme tekniği olarak adlandırılabilir.

  2. En Küçük Kare Yöntemini kullanarak : Burada normal denklem olarak bilinen parametrelerimizi bulmak için doğrudan formüle sahibiz (bu formülün türevini anlamak için bazı matris cebirleri gereklidir). Least Square Method

Here b represents parameters X is design Matrix. Both Methods have their own advantages and limitations. To get more details: follow coursera Machine Learning course still running.

I hope this post might be helpful .. :-)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.