Yapmak istediğiniz şey mevcut değil çünkü daha iyi bir kelime eksikliği nedeniyle, matematiksel olarak kusurlu.
Ama önce, sorunuzun önermesinin neden sağlam olduğunu düşündüğümü vurgulayacağım. Daha sonra onlardan aldığınız sonuçların neden lojistik modelin yanlış anlaşılmasına dayandığını düşündüğümü açıklamaya çalışacağım ve son olarak alternatif bir yaklaşım önereceğim.
Ben göstereceğiz içinngözlemleri (daha koyu harfler vektörleri ifade) içerisinde yalansboyutlu uzayda (birinci giriş x{(xxi,yi)}ni=1np 1)p<n, y i ∈[0,1]ve f( x ilexxip<nyi∈[0,1]x'in monoton bir fonksiyonudurf(xxi)=f(xx′iββ) ,fikirleri düzeltmekiçinlojistik eğrigibi söyleyin. Çıkarlar için, sadece o üstlenecek n iseyeterincekıyasla büyük p .xx′iββnp
TVD'yi takılan modeli değerlendirmek için kriter olarak kullanmak istiyorsanız , verilerinizde aynı kriteri tüm olası adaylar arasında optimize etmesini beklemek mantıklıdır. bundan dolayı
ββ∗=argminββ∈Rp||yy−f(xx′iββ)||1
Sorun şu hata terimidir :
ve (modelimizin asimptotik olarak tarafsız olmasını isteriz ), gerekir olmak heteroskedastic . Bunun nedeni, sadece iki değeri, 0 ve alabilir 1. Bu nedenle, belirli bir
, de sadece iki değerler alabilir: , bu olasılık ortaya çıkar veE ( ϵϵi=yi−f(xx′iββ)ϵ i y i xE(ϵϵ)=0ϵi yiϵ i 1-f( xxxiϵiy i = 1 f ( x1−f(xx′iββ)yi=1- f ( xf(xx′iββ)y i = 11 1 - f ( x−f(xx′iββ)yi=1olasılık .1−f(xx′iββ)
Bu düşünceler birlikte şunu ifade eder:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
dolayısıyla sabit, fakat içbükey parabol şeklinde değildir ve zaman maksimize edilir gibi olduğu .xvar(ϵϵ) E ( y | xxxE(y|xx)≈.5
Kalıntıların bu doğal heteroskedastisitesinin sonuçları vardır . Diğer şeylerin yanı sıra, kaybı işlevini en aza indirirken, asimptotik olarak aşırı olduğunuz anlamına gelir . Yani, takılan verilere hiç uymaz, sadece in . Buna karşılık, bunlar numunenizdeki en az bilgilendirici veri noktalarıdır : gürültü bileşeninin en büyük olduğu gözlemlere karşılık gelirler. Bu nedenle, , örn. Alakasız.βl1xββ∗ E ( yxxβE(yy|xx)≈.5ββ∗=ββ:f(xx′ββ)≈.5
Yukarıdaki açıklamadan da anlaşılacağı gibi bir çözüm tarafsızlık gerekliliğini düşürmektir. Tahminciye (bazı Bayes yorumları eklenmiş olarak) ağırlık vermenin popüler bir yolu, bir büzülme terimi eklemektir. Yanıtı yeniden ölçeklendirirsek:
y+i=2(yi−.5),1≤i≤n
ve hesaplamalı için, yerine başka bir monoton işlev - devamı için parametre vektörünün ilk bileşenini ve kalan olanları ve bir büzülme terimi (örneğin formundan birini) ), ortaya çıkan optimizasyon sorunu şöyle olur:g ( xf(xx′ββ)c p - 1 γg(xx,[c,γγ])=xx′[c,γγ]cp−1| | γγγ||γγ||2
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
Bu yeni (ayrıca dışbükey) optimizasyon probleminde, doğru sınıflandırılmış gözlemlerin cezasının 0 olduğunu ve yanlış sınıflandırılmış bir gözlem için ile doğrusal olarak büyüdüğünü - olduğu gibi kaybı. bu ikinci optimizasyon problemine çözüm katsayıları (mükemmel ayırma) ile ünlü doğrusal SVM vardır. aksine , bu ' türü ceza içeren verilerden (önyargı nedeniyle 'tür') öğrenmek mantıklıdır . Sonuç olarak, bu çözüm yaygın olarak uygulanmaktadır. Örneğin bkz. R paketi LiblineaR .l 1 [ c ∗ , γxx′[[c,γ]l1 β[c∗,γγ∗] [ c ∗ , γββ∗[c∗,γγ∗]