Kapalı formda regresyon parametrelerinin gradient inişle çözülmesi


71

Andrew Ng'nin makine öğrenim kursunda , doğrusal regresyon ve lojistik regresyon tanıtıyor ve gradyan iniş ve Newton yöntemini kullanarak model parametrelerine nasıl uyulacağını gösteriyor.

Degrade inişinin bazı makine öğrenmesi uygulamalarında (örneğin backpropogation) faydalı olabileceğini biliyorum, ancak daha genel bir durumda, parametreleri kapalı formda çözememeniz için herhangi bir neden var - yani türevini alarak Maliyet Fonksiyonu ve Calculus ile Çözme?

Genelde kapalı formdaki bir çözümde degrade iniş gibi yinelemeli bir algoritma kullanmanın avantajı nedir?


9
Çoğu glms'deki regresyon parametrelerinin MLE'si için kapalı bir form çözümü olduğunu sanmıyorum (örneğin, lojistik regresyon). Normal hatalarla doğrusal regresyon bir istisnadır.
Makro

5
İlginç ... Bu, farklı istatistik paketlerinin, örneğin başlangıç ​​parametre ayarları, yineleme sayısı, çoklu yerel minima, vs. gibi lojistik regresyon için farklı cevaplar verebileceği anlamına mı geliyor? takip et? (Varsa, herhangi bir farkın çoğu durumda dakika olduğundan eminim olsa da)
Jeff

3
(+1) Sorunuz ve yorumunuz için Jeff. Kanonik bağlantıyı kullanan GLM'ler (lojistik regresyon gibi) dışbükeyliğin güzel özelliklerinden yararlanırlar. Bu tür problemleri çözmek için birden fazla algoritma olabilir, ancak bunun temel sonucu, (bazı oldukça küçük detayları modüle etmek), iyi uygulanan sayısal algoritmaların aralarında tutarlı sonuçlar vermesidir.
kardinal

2
Ben şahsen Andrew Ng'un kursundan hoşlanmıyorum, çünkü insanları Doğrusal Regresyonun "makine öğrenmesi" olduğuna inanmaya itmiştir.
Digio

Yanıtlar:


85

Kapalı form çözümünün hesaplanması son derece pahalı olmadıkça, genellikle uygun olduğunda devam etmenin yoludur. Ancak,

  1. Doğrusal olmayan regresyon problemlerinin çoğu için kapalı form çözümü yoktur.

  2. Doğrusal regresyonda bile (kapalı bir form çözümünün bulunduğu birkaç durumdan biri), formülü kullanmak pratik olmayabilir. Aşağıdaki örnekte, bunun olabileceği bir yol gösterilmektedir.

şeklindeki bir modeldeki doğrusal regresyon için , tam sütun sırasına sahip bir matristir, en küçük kareler çözümü,y=XβX

β^=argminXβy2

tarafından verilir

β^=(XTX)1XTy

Şimdi, çok büyük ama seyrek bir matris olduğunu hayal edin . Örneğin, 100.000 sütun ve 1.000.000 satır içerebilir, ancak girişlerin yalnızca% 0.001'i sıfır değildir. Böyle seyrek matrislerin sadece sıfır olmayan girişlerini depolamak için özel veri yapıları vardır. XXX

Ayrıca, şanssız olduğumuzu ve sıfırdan daha yüksek yüzdesi olmayan girişlerin olduğu oldukça yoğun bir matris olduğunu hayal edin . Yoğun 100.000 x 100.000 element matrisinin saklanması, daha sonra kayan nokta sayısı gerektirir (sayı başına 8 bayt, bu 80 gigabayt olur.) Bu, herhangi bir şey üzerinde saklamak için pratik olmaz. ama bir süper bilgisayar. Ayrıca, bu matrisin tersi (veya daha genel olarak bir Cholesky faktörü) çoğunlukla sıfır olmayan girdilere sahip olma eğilimindedir. XTXXTX1×1010

Bununla birlikte, , ve dan daha fazla depolama gerektirmeyen en küçük kareler problemini çözmek için yinelemeli yöntemler vardır ve kesinlikle açıkça matris ürünü . Xyβ^XTX

Bu durumda, yinelemeli bir yöntem kullanmak, kapalı form çözümünü en küçük kareler problemine kullanmaktan çok daha fazla hesaplama açısından verimlidir.

Bu örnek saçma sapan büyük görünebilir. Ancak, bu büyüklükteki en küçük kareler problemleri, sismik tomografi araştırmalarında masaüstü bilgisayarlarda yinelemeli yöntemlerle rutin olarak çözülmektedir.


4
Kapalı form çözümünün kullanımını en küçük kareler sorununa önerilemez hale getirebilecek sayısal doğruluk sorunları olduğunu da belirtmeliyim. Bununla birlikte, bu, orijinal posterin şu anki anlayışının ötesinde görünebilecek bir kötüleşme konusunun tartışılmasını gerektirecektir.
Brian Borchers

17
lütfen bir cevap göndermek için tereddüt etmeyin, çünkü anlayacağımı sanmıyorsunuz. İlk önce, daha fazla bilgi vermek bana zarar vermez, hatta onu kavramam için biraz araştırma yapmamıza rağmen. ikinci - stackexchange modeli, bu sorunun ve cevabın gelecekte başkalarına fayda sağlayacağını varsayar. Başka bir deyişle, OP'nin ne kadar bildiğini düşündüğünüze dayanarak cevabınızı boşa harcamayın, yoksa başkalarına bir kötülük yapacaksınız.
Jeff,

2
@Brian, benim hislerim yorumunuz konunun kalbine daha fazla isabet ediyor ve cevabındaki ilk cümle ile ilgili bazı olasılıklar biraz. Sanmıyorum herhangi (kendi aklı başında) en az kareler yazılım Kapalı form çözümü kullanmaktadır. :)
kardinal

4
Kardinal pratikte, küçük ölçekli en küçük kareler problemlerini çözmek için QR faktoringini veya SVD'yi kullanmak en iyisidir. Bu ortogonal faktörleşmelerden birini kullanan bir çözümün, LSQR gibi yinelemeli bir teknik kullanmaya kıyasla "kapalı form bir çözüm" olduğunu da savunuyorum. Cevabımla bunun içine girmedim çünkü gereksiz yere asıl noktamdan dikkat çekiyor.
Brian Borchers

2
Kötü klima? Ders kitabı kapalı form çözümü? Sabahki kare sayıların kokusunu seviyorum. Büyük bir durum numarası var mı? Neden kare alıp daha büyük hale getirmiyorsunuz? Çok büyük bir durum numarası var mı? Neden kare yapmıyor ve büyük yapmıyorsunuz?
Mark L. Stone,

2

Makine öğrenmesi (ML) ve regresyon ile ilgili birkaç mesaj var. Normal en küçük kareleri (OLS) çözmek için ML gerekli değildir, çünkü doğrusal denklem sistemlerinin çözümü için tek adımlı bir matris sandviçleme işlemi içerir - yani, . Her şeyin doğrusal olması, katsayıları çözmek için sadece tek adımlı bir işlem yapılması gerektiği anlamına gelir. Lojistik regresyon olabilirlik fonksiyonu maksimize dayanmaktadır Newton Raphson veya diğer ML gradyan çıkış yöntemleri, Metaheuristic (tepe tırmanma, genetik algoritmalar, oğul zeka, karınca kolonisi optimizasyonu, vs) kullanılarak çözülebilir, . β=(XTX)1XTyL=ipi

Parsimony ile ilgili olarak, OLS için ML kullanımı israf edici olacaktır çünkü tekrarlamalı öğrenme OLS'yi çözmek için yetersizdir.

Şimdi, türevlere karşı ML hakkındaki gerçek sorunuza dönersek, gradyan tabanlı problemleri çözme yaklaşımları. Spesifik olarak, lojistik regresyon için Newton-Raphman'ın gradyan iniş (türev tabanlı) yaklaşımı yaygın olarak kullanılmaktadır. Newton-Raphson, her bir parametreyle nesnel işlevi ve kısmi türevlerini bilmenizi gerektirir (sınırda sürekli ve farklılaştırılabilir). ML, nesnel işlev çok karmaşık olduğunda ("narly") ve türevleri bilmiyorsanız kullanılır. Örneğin, yapay bir sinir ağı (YSA), fonksiyon bilinmediğinde bir fonksiyon yaklaşımı problemini veya denetimli sınıflandırma problemini çözmek için kullanılabilir. Bu durumda, YSA işlevidir.

Lojistik regresyon problemini çözmek için ML yöntemlerini kullanma yanlışı yapmayın, sadece yapabilirsiniz. Lojistik için Newton-Raphson son derece hızlı ve sorunu çözmek için uygun bir tekniktir. Fonksiyonun ne olduğunu bilmediğinizde, ML yaygın olarak kullanılır. (Bu arada, YSA'lar ML değil, hesaplamalı zeka alanındandır).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.