Lojistik regresyon için matris gösterimi


16

Doğrusal regresyonda (kare kaybı), matris kullanarak hedef için çok özlü bir gösterime sahibiz

minimize  Axb2

A veri matrisi olduğu durumlarda , x katsayılardır ve b yanıttır.

Lojistik regresyon hedefi için benzer bir matris gösterimi var mı? Gördüğüm tüm gösterimler, tüm veri noktalarındaki toplamdan ( \ sum _ {\ text data} \ text {L} _ \ text {logistic} (y, \ beta ^ Tx) bir şeyden kurtulamaz dataLlogistic(y,βTx).


EDIT: joceratops ve AdamO'nun harika cevabı için teşekkürler. Onların cevabı, lineer regresyonun daha özlü bir gösterime sahip olmasının bir başka nedeninin, kareyi ve toplamı veya e ^ \ top e'yi çevreleyen normun tanımlanmasıdır ee. Ancak lojistik kayıpta, gösterimi biraz daha karmaşık hale getiren böyle bir tanım yoktur.

Yanıtlar:


18

Doğrusal regresyonda, tahminine yönelik Olabilirlik Tahminini En Üst Düzeye Çıkar (MLE) çözümü aşağıdaki kapalı form çözümüne sahiptir (A'nın tam sütun sıralamasına sahip bir matris olduğu varsayılarak):x

x^lin=argminxAxb22=(ATA)1ATb

Bu, " objektif işlevini en aza indiren bul" olarak okunur . Doğrusal regresyon objektif işlevini bu şekilde temsil etmenin güzel yanı, her şeyi matris notasyonunda tutabilmemiz ve elle çözebilmemizdir . Alex R.'in belirttiği gibi, pratikte doğrudan hesaplama olarak verimsiz olduğu ve genellikle tam sıralama kriterlerini karşılamadığı için düşünmüyoruz. Bunun yerine, Moore-Penrose yalancı tersine dönüyoruz . Yalancı ters için hesaplamalı çözme ayrıntıları, Cholesky ayrışmasını veya Tekil Değer Ayrışmasını içerebilir.xAxb22x^lin(ATA)1A

Alternatif olarak, lojistik regresyondaki katsayıları tahmin etmek için MLE çözümü:

x^log=argminxi=1Ny(i)log(1+exTa(i))+(1y(i))log(1+exTa(i))

burada (her veri örneğinin satır olarak saklandığı varsayılarak):

x bir vektörü regresyon katsayılarını temsil eder

a(i) bir vektör, veri matrisindeki örneği / satırı temsil ederithA

y(i) bir skaler olan ve etiket tekabül numune{0,1}ithith

N , veri matrisi veri örneği sayısı / satır sayısıdır .A

Yine bu, " nesnel işlevi en aza indiren bul" olarak okunur .x

İsterseniz, bir adım daha ileri gidebilir ve matris notasyonunda ifadesini aşağıdaki gibi temsil edebilirsiniz:x^log

x^log=argminx[1(1y(1))1(1y(N))][log(1+exTa(1))...log(1+exTa(N))log(1+exTa(1))...log(1+exTa(N))]

ama bunu yapmaktan hiçbir şey kazanamazsınız. Lojistik regresyon kapalı bir form çözümüne sahip değildir ve matris notasyonunda temsil ederek lineer regresyon ile aynı faydaları elde etmez. için çözmek için degrade iniş ve Newton-Raphson yöntemi gibi tahmin teknikleri kullanılır. Bu tekniklerin bazıları (Newton-Raphson gibi) kullanılarak yaklaşır ve matris gösteriminde temsil edilir ( Alex R. tarafından sağlanan bağlantıya bakın ).x^logx^log


Harika. Teşekkürler. Sanırım şeyin olmamasının sebebinin matris notasyonunu yapmak ve toplam sembolünden kaçınmak için bu adımı daha fazla atmamamızın nedeni olduğunu düşünüyorum. AAx=Ab
Haitao Du

Bir adım daha ileri gitmenin bazı avantajları var, bunu matris çarpımına dönüştürmek kodu daha basit hale getirecek ve matlab gibi birçok platformda, tüm veriler üzerinde toplamla döngü için, matris işlemlerinden çok daha yavaş.
Haitao Du

5
@ hxd1011: Sadece küçük bir yorum: matris denklemlerine indirgemek her zaman akıllıca değildir. Durumunda , aslında ters matrisi arayan çalışmamalıdır , daha ziyade çok daha hızlı ve daha sayısal olarak kararlı olacak Choleskey ayrışma böyle bir şey yapmak. Lojistik regresyon için, gerçekten matris hesaplamaları kullanan bir dizi farklı yineleme şeması vardır. Harika bir inceleme için buraya bakın: arastirma.microsoft.com/tr-tr/um/people/minka/papers/logreg/…ATAx=ATbATA
Alex R.

1
@AlexR. çok teşekkür ederim. Normal denklem kullanmanın matris koşullu sayının karesini alacağını öğrendim. Ve QR veya Cholesky çok daha iyi olurdu. Bağlantınız harika, sayısal yöntemlerle böyle bir inceleme her zaman istediğim şeydi.
Haitao Du

16

@joceratops yanıtı, tahmin için maksimum olasılık optimizasyon problemine odaklanır. Bu gerçekten de pek çok soruna uyan esnek bir yaklaşımdır. Doğrusal ve lojistik regresyon modelleri de dahil olmak üzere çoğu modeli tahmin etmek için, moment tahmini yöntemine dayanan başka bir genel yaklaşım daha vardır.

Doğrusal regresyon tahmincisi , tahmin denkleminin kökü olarak da formüle edilebilir:

0=XT(YXβ)

Bu bakımdan , ortalama 0 kalıntısı alan değer olarak görülür. Bu yorumu yapmak için herhangi bir temel olasılık modeline güvenmek gerekmez. Bununla birlikte, normal bir olasılık için skor denklemlerini türetmek ilginçtir, gerçekten de tam olarak yukarıda gösterilen formu aldıklarını göreceksiniz. Doğrusal bir model (örneğin, doğrusal veya lojistik regresyon) için düzenli üstel ailenin olasılığını en üst düzeye çıkarmak, puan denklemlerine çözüm elde etmeye eşdeğerdir.β

0=i=1nSi(α,β)=βlogL(β,α,X,Y)=XT(Yg(Xβ))

Burada değeri beklenen olan . GLM kestiriminde, bir link fonksiyonunun tersi olduğu söylenir. Normal olabilirlik denklemlerinde, kimlik fonksiyonudur ve lojistik regresyonda logit fonksiyonudur. Daha genel bir yaklaşım, model yanlış tanımlamasına izin veren gerektirir.Yig(Xiβ)gg1g10=i=1nYg(Xiβ)

Ayrıca, düzenli üstel aileler için buna ortalama-varyans ilişkisi denir. Gerçekten lojistik regresyon için, ortalama varyans ilişkisi, ortalama varyansla ilişkili olacak . Bu, yanlış tanımlanmış bir GLM'nin 0 ortalama Pearson kalıntısı veren bir model olarak yorumlanmasını önerir. Bu ayrıca orantılı olmayan fonksiyonel ortalama türevlere ve ortalama varyans ilişkilerine izin vermek için bir genelleme önerir.g(Xβ)β=V(g(Xβ))p=g(Xβ)var(Yi)=pi(1pi)

Bir genelleştirilmiş tahmin denklemi yaklaşımı şu şekilde lineer modeller belirtmek istiyoruz:

0=g(Xβ)βV1(Yg(Xβ))

İle tarafından verilen donatılmış değere (ortalama) temel varyanslannın bir matrisi . Bu kestirim yaklaşımı, GLM'lerde olduğu gibi bir bağlantı fonksiyonu ve ortalama varyans ilişkisi seçmeyi sağlar.Vg(Xβ)

Lojistik regresyon olarak ters logit olur ve tarafından verilecek . Newton-Raphson tarafından elde edilen bu tahmin denkleminin çözümleri lojistik regresyondan elde edilen verecektir . Bununla birlikte, biraz daha geniş bir model sınıfı benzer bir çerçevede tahmin edilebilir. Örneğin, link fonksiyonu doğrusal tahmin edicinin log'u olarak alınabilir, böylece regresyon katsayıları olasılık oranları değil nispi risklerdir . Hangi - OR'leri RR olarak yorumlamanın iyi belgelenmiş tuzakları düşünüldüğünde - neden artık herkesin lojistik regresyon modellerine uyduğunu sormak için beni uyandırıyor.gViig(Xiβ)(1g(Xβ))β


1
+1 harika cevap. türev üzerinde kök bulması benim için gerçekten yeni. ve ikinci denklem gerçekten kısa.
Haitao Du
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.