Lojistik regresyonda kusursuz ayrılıkla nasıl başa çıkılır?

163

Sıfırları ve hedef değişkendekileri mükemmel bir şekilde ayıran bir değişkeniniz varsa, R aşağıdaki "mükemmel veya yarı mükemmel ayrılma" uyarı mesajını verecektir:

Warning message:
glm.fit: fitted probabilities numerically 0 or 1 occurred

Modeli hala alıyoruz, ancak katsayı tahminleri şişiriliyor.

Bununla pratikte nasıl başa çıkıyorsunuz?

r regression logistic separation

— user333
kaynak

4

ilgili soru

— user603

1

Burada

— Haitao Du

100

Bunun bir çözümü, bir çeşit cezai regresyon kullanmaktır. Aslında, bazı cezai regresyon formlarının bazılarının geliştirilmesinin asıl nedeni budur (başka ilginç özelliklere sahip oldukları ortaya çıksa da).

R paketine glmnet paketini kurun ve yükleyin; çoğunlukla kullanıma hazırsınız. Glmnet'in kullanıcı dostu olmayan yönlerinden biri, alıştığımız formülleri değil, yalnızca matrisleri besleyebilmenizdir. Ancak, bu matrisi bir data.frame ve formülünden oluşturmak için model.matrix ve benzeri öğelerine bakabilirsiniz ...

Şimdi, bu mükemmel ayrılmanın sadece numunenizin bir yan ürünü olmadığını değil, popülasyonda da gerçek olabileceğini düşündüğünüzde, özellikle bunu ele almak istemezsiniz: bu ayırma değişkenini sadece sonucunuz için tek öngörücü olarak kullanın. herhangi bir model kullanarak.

— Nick Sabbe
kaynak

20

Ayrıca şapka paketi boyunca glmnet için bir formül arayüzü kullanabilirsiniz.

— Zach

“Şimdi, beklediğinde ...” Bununla ilgili bir soru. Mikrobiyomla ilişkiye bakarak bir vaka / kontrol çalışmam var. Ayrıca neredeyse sadece vakalar arasında bulunan bir tedavimiz var. Ancak, tedavinin mikrobiyomayı da etkileyebileceğini düşünüyoruz. Bu, ihtarınızın bir örneği mi? Varsayılırsa, denememiz halinde tedaviyi kullanmayan bir sürü vaka bulabiliriz, fakat elimizde bir şey var.

— abalter

142

Birkaç seçeneğiniz var:

Önyargıların bir kısmını kaldırın.

a) Nick'in önerisine göre olasılığın cezalandırılmasıyla. R'deki paket logosu veya SAS'lardakiFIRTH seçenek, PROC LOGISTICFirth (1993), "Maksimum olabilirlik tahminlerinde yanlılığın azaltılması", Biometrika , 80 , 1'de önerilen yöntemi uygular ; Bu da, birinci dereceden önyargısını azami olasılık tahminlerinden kaldırır. ( Burada @Gavin brglm, aşina olmadığım bir paketi öneriyor , ancak bunu topluyoruz, örneğin probit gibi kanonik olmayan bağlantı işlevleri için benzer bir yaklaşım uyguluyor.)

(b) Ortanca yansız tahminleri kesin koşullu lojistik regresyonda kullanarak. Paket elrm veya LogistiX R veya EXACTSAS en deyimi PROC LOGISTIC.
Tahmini kategorinin veya ayrılığa neden olan değerin gerçekleştiği durumları hariç tutun . Bunlar sizin kapsamınızın dışında olabilir; veya daha fazla, odaklanmış soruşturmaya layık. (R paketi safeBinaryRegression onları bulmak için kullanışlıdır.)
Modeli tekrar yayınla. Genelde bu, önceden düşünmüş olmanız halinde önceden yapabileceğiniz bir şeydir, çünkü örneklem boyutunuz için çok karmaşıktır.

(a) Tahmini modelden modelden çıkarın . Dicey, @Simon tarafından verilen nedenlerden dolayı : "Yanıtı en iyi açıklayan öngörücüyü kaldırıyorsunuz".

(b) Tahmini kategorileri daraltmak / Tahmini değerlerini bindirmek. Sadece bu mantıklı geliyorsa.

(c) Tahminciyi, etkileşimi olmayan iki (veya daha fazla) çapraz faktör olarak tekrar ifade etmek . Sadece bu mantıklı geliyorsa.
@ Manoel'in önerisine göre bir Bayesian analizi kullanın . Diğer ayrıcalıkları göz önünde bulundurarak, sadece ayrılma nedeniyle yapmak istemeniz pek mümkün gözükmese de. Tavsiye ettiği makale Gelman ve diğerleri (2008), "Lojistik ve diğer regresyon modelleri için zayıf bilgilendirici bir varsayılan dağıtım", Ann. Baş. Stat. , 2 , 4 : söz konusu varsayılan, her katsayıdan önce bağımsız bir Cauchy'dir, ortalama sıfır ve bir ölçeği ; tüm sürekli tahmin edicilerin standartlaştırılmasından sonra kullanılmaya başlanması için sıfır ortalama ve standart sapması . Bilgilendirici öncelikleri kuvvetle açıklayabiliyorsanız, çok daha iyi. $\frac{5}{2}$ $\frac{1}{2}$
Hiçbir şey yapma. (Ancak Wald standart hata tahminlerinin fena halde yanlış olacağından profil olasılıklarına dayanarak güven aralıklarını hesaplayın.) Sık kullanılan bir seçenek. Modelin amacı, yordayıcılar ve yanıt arasındaki ilişkiler hakkında ne öğrendiğinizi açıklamaksa, 2.3 oranın bir olasılık oranı için bir güven aralığı belirtmekten utanılacak bir şey yoktur. (Gerçekten de, verilerin en iyi desteklediği olasılık oranlarını hariç tutan tarafsız tahminlere dayanarak güven aralıklarını belirtmek balık gibi görünebilir.) Nokta tahminlerini kullanmayı tahmin etmeye çalışırken problemler ortaya çıkıyor ve ayrılmanın gerçekleştiği tahminde diğerleri bataklık ediyor.
Rousseeuw & Christmann (2003), "Lojistik regresyonda ayırma ve aykırılıklara karşı sağlamlık", " Hesaplamalı İstatistik ve Veri Analizi , 43 , 3 ve R paket hlr'de uygulanan gizli bir lojistik regresyon modeli kullanın . (@ user603 bunu öneriyor. ) Makaleyi okumamıştım , ancak özetinde , gözlemlenen cevabın güçlü bir şekilde ilişkili olduğu ancak gözlemlenemeyen gerçek cevaba eşit olmadığı, biraz daha genel bir model önerildiği söyleniyor. mantıklı görünmüyorsa, yöntemi kullanmak iyi bir fikir olmayabilir.
"Tamamen ayrılmasını gösteren değişkenler arasında 1 1-0 veya 0 ila birkaç rasgele seçilen gözlemleri değiştirme": robertf en @ comment . Bu öneri , verilerde azami olasılık tahmininde diğer yöntemleri tercih etmenize ya da yapabileceklerinizle ilgili çıkarımları sınırlamanıza yol açabilecek veri eksikliği bilgisinin bir belirtisi olmaktan ziyade, ayrılmayı kendi başına bir sorun olarak görmekten kaynaklanıyor gibi görünmektedir. makul hassasiyet - kendi yararları olan ve ayrılık için sadece "düzeltmeler" olmayan yaklaşımlar. (Şaşırtıcı derecede geçici olmasının yanı sıra , aynı verinin aynı sorusunu soran, aynı varsayımları yapan analistlerin, bozuk para atma ya da her neyse, farklı cevaplar vermeleri çoğu için hoş değildir.)

— Scortchi
kaynak

1

@Scortchi Başka bir (heretical) seçeneği var. Tam ayrılma sergileyen değişkenler arasında rastgele seçilen birkaç gözlemin 1'den 0'a veya 0'dan 1'e değiştirilmesine ne dersiniz?

— RobertF,

@RobertF: Teşekkürler! Bunu düşünmemiştim - performansıyla ilgili herhangi bir referansınız varsa minnettar olurum. İnsanları pratikte kullanırken karşılaştınız mı?

— Scortchi

@Scortchi - Hayır, tam ayrımı ortadan kaldırmak için yapay veri ekleyen araştırmacılara referanslar var, ancak verilerin seçici olarak değiştirilmesi hakkında herhangi bir yazı bulamadım. Bu yöntemin ne kadar etkili olacağı hakkında hiçbir fikrim yok.

— RobertF

1

@tatami: Tüm (birçok?) programlar, kendi başlarına ayrılma konusunda uyarır, birkaç değişkenli lineer bir kombinasyonda olduklarında fark etmek zor olabilir, fakat yakınsaklık veya / veya sıfırlanmış veya yakın değerlere yakın değerlerde her zaman bunları kontrol et.

— Scortchi

2

@ Scortchi: Cevabınızı çok güzel bir özeti. Şahsen ben Bayesian yaklaşımını tercih ediyorum, ancak genel olgunun güzel analizini sık sık bakış açısıyla, projecteuclid.org/euclid.ejs/1239716414 . Yazar, lojistik regresyonda tamamen ayrılma durumunda bile kullanılabilecek bazı tek taraflı güven aralıkları sunar.

— Camgöbeği

55

Bu, Scortchi ve Manoel'in cevaplarının genişlemesi, ancak RI kullanıyor göründüğünüzden, bazı kodlar sağlayacağımı düşündüm. :)

Sorununun en kolay ve en basit çözümünün Gelman ve arkadaşlarının (2008) önerdiği gibi bilgilendirici olmayan önceki varsayımlara sahip bir Bayesian analizini kullanmak olduğuna inanıyorum. Scortchi'nin belirttiği gibi Gelman, her katsayıda medyan 0.0 ve ölçek 2.5 ile Cauchy koymasını önerir (ortalama 0.0 ve 0.5 SD olması normalize edilmiştir). Bu, katsayıları düzenler ve sadece biraz sıfıra doğru çeker. Bu durumda tam olarak istediğiniz şey. Çok geniş kuyruklara sahip olduğundan, Cauchy Gelman'dan hala büyük katsayılara (kısa kuyruklu Normal'in tersine) izin verir:

görüntü tanımını buraya girin

Bu analiz nasıl yapılır? Bu analizi yapan kol paketindekibayesglm işlevi kullanın !

library(arm)

set.seed(123456)
# Faking some data where x1 is unrelated to y
# while x2 perfectly separates y.
d <- data.frame(y  =  c(0,0,0,0, 0, 1,1,1,1,1),
                x1 = rnorm(10),
                x2 = sort(rnorm(10)))

fit <- glm(y ~ x1 + x2, data=d, family="binomial")

## Warning message:
## glm.fit: fitted probabilities numerically 0 or 1 occurred 

summary(fit)
## Call:
## glm(formula = y ~ x1 + x2, family = "binomial", data = d)
##
## Deviance Residuals: 
##       Min          1Q      Median          3Q         Max  
## -1.114e-05  -2.110e-08   0.000e+00   2.110e-08   1.325e-05  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)
## (Intercept)    -18.528  75938.934       0        1
## x1              -4.837  76469.100       0        1
## x2              81.689 165617.221       0        1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1.3863e+01  on 9  degrees of freedom
## Residual deviance: 3.3646e-10  on 7  degrees of freedom
## AIC: 6
## 
## Number of Fisher Scoring iterations: 25

O kadar iyi çalışmıyor ... Şimdi Bayesian versiyonu:

fit <- bayesglm(y ~ x1 + x2, data=d, family="binomial")
display(fit)
## bayesglm(formula = y ~ x1 + x2, family = "binomial", data = d)
##             coef.est coef.se
## (Intercept) -1.10     1.37  
## x1          -0.05     0.79  
## x2           3.75     1.85  
## ---
## n = 10, k = 3
## residual deviance = 2.2, null deviance = 3.3 (difference = 1.1)

Süper basit, hayır?

Referanslar

Gelman ve arkadaşları (2008), "Lojistik ve diğer regresyon modelleri için önceden dağıtılmış zayıf bilgilendirici bir varsayılan", Ann. Baş. Stat., 2, 4 http://projecteuclid.org/euclid.aoas/1231424214

— Rasmus Bååth
kaynak

6

Hayır. Çok basit. Az önce ne yaptığını açıklayabilir misin? bayesglmKullanan önceliği nedir ? Eğer ML tahmini önceden Bayesian ile eşdeğerse, önceden bilgilendirici olmayan öncelikler burada nasıl yardımcı olur?

— StasK

5

Biraz daha bilgi eklendi! Birincisi belirsiz ama düz değil. Tahminleri düzenlemesi ve hafifçe 0.0'a çekmesi gibi bir etkisi var, ki bu durumda istediğin şey bu.

— Rasmus Bååth,

> m = bayesglm (eşleşme ~., aile = binom (link = 'logit'), veri = df) Uyarı mesajı: sayısal olarak yerleştirilmiş olasılıklar 0 veya 1 oluştu İyi değil!

— Chris,

Bir başlangıç, artırarak biraz daha güçlü bir düzene bağlama denemek prior.dfiçin hangi varsayılan 1.0ve / veya azaltmak prior.scaleiçin hangi varsayılan 2.5belki çalışırken başlayın:m=bayesglm(match ~. , family = binomial(link = 'logit'), data = df, prior.df=5)

— Rasmus Baas

1

Modelde öncekini arttırdığımızda tam olarak ne yapıyoruz. Ne kadar yükseğe çıkmak istediğimizin bir sınırı var mı? Anladığım kadarıyla, doğru hata tahminleriyle yakınsamaya izin vermek için modeli kısıtlıyor.

— hamilthj

7

Azami olasılıkta "yarı-tam ayrılma" sorunlarının en kapsamlı açıklamalarından biri Paul Allison'ın makalesidir. SAS yazılımı hakkında yazıyor, ancak ele aldığı sorunlar herhangi bir yazılıma genelleştirilebilir:

Tam ayırım, x'in doğrusal bir işlevi, y'nin mükemmel tahminlerini üretebildiğinde

(A) bir katsayı vektörü var olması durumunda Yarı tam ayrılması meydana b öyle ki BXI ≥ 0 her yi = 1 ve BXI ≤ 0 * her ** yi = 0 ve bu eşitlik her kategoride en az bir durum için geçerlidir bağımlı değişken. Diğer bir deyişle, en basit durumda, bir lojistik regresyondaki iki boyutlu bağımsız değişken için, eğer bu değişken ve bağımlı değişken tarafından oluşturulan 2 × 2 tablosunda sıfır varsa, regresyon katsayısı için ML tahmini yoktur.

Allison, problem değişkenlerinin silinmesi, kategorilerin çökmesi, hiçbir şey yapmama, tam lojistik regresyon, Bayesian kestirimi ve cezalandırılmış maksimum olabilirlik kestirimi de dahil olmak üzere daha önce bahsedilen çözümlerin çoğunu tartışıyor .

http://www2.sas.com/proceedings/forum2008/360-2008.pdf

— Mike Hunter
kaynak

3

Çıkarım için lojistik modeller için, öncelikle burada hata olmadığını vurgulamak önemlidir. warningAr doğru maksimum olabilirlik tahmincisi parametre uzayın sınırına yatıyor belirtmek içindir. oran oranı , bir dernek için kuvvetli bir öneridir. Tek sorun, test üretmek için iki genel yöntemdir: Wald testi ve Olabilirlik oranı testi, alternatif hipotez altındaki bilgilerin değerlendirilmesini gerektirir. $\infty$

Satırları boyunca oluşturulan verilerle

x <- seq(-3, 3, by=0.1)
y <- x > 0
summary(glm(y ~ x, family=binomial))

Uyarı yapılır:

Warning messages:
1: glm.fit: algorithm did not converge 
2: glm.fit: fitted probabilities numerically 0 or 1 occurred

Açıkçası bu verilere yerleşik olan bağımlılığı yansıtmaktadır.

R ise Wald testi ile bulunur summary.glmveya waldtestiçinde lmtestpaket. Olabilirlik oran testi paket içinde anovaveya ile gerçekleştirilir . Her iki durumda da, bilgi matrisi sonsuz bir şekilde değerlendirilir ve sonuç yoktur. Aksine, R gelmez çıktı üretmek, fakat onu güven olmaz. R'nin tipik olarak bu durumlarda ürettiği çıkarım, bire çok yakın p-değerlerine sahiptir. Bunun nedeni, OR'da hassasiyet kaybının, varyans-kovaryans matrisindeki hassasiyet kaybından daha küçük büyüklük dereceleri olmasıdır.lrtestlmtest

Burada özetlenen bazı çözümler:

Tek adımlı bir tahmin cihazı kullanın,

Tek adımlı tahmin edicilerin düşük önyargı, verimlilik ve genelleştirilebilirliğini destekleyen birçok teori vardır. R'de tek adımlı bir tahminci belirtmek kolaydır ve sonuçlar tahmin ve çıkarım için genellikle çok uygundur. Ve bu model asla ayrılmaz, çünkü yineleyici (Newton-Raphson) böyle yapma şansına sahip değil!

fit.1s <- glm(y ~ x, family=binomial, control=glm.control(maxit=1))
summary(fit.1s)

verir:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.03987    0.29569  -0.135    0.893    
x            1.19604    0.16794   7.122 1.07e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Böylece tahminlerin trendin yönünü yansıttığını görebilirsiniz. Ve çıkarım, doğru olduğuna inandığımız eğilimlerin son derece anlamlı olduğunu gösteriyor.

puan testi yapmak,

Skor (veya Rao) istatistik olasılık oranı farklıdır ve istatistikleri Wald. Alternatif hipotez altında varyansın değerlendirilmesini gerektirmez. Modele boş değerin altına sığdık:

mm <- model.matrix( ~ x)
fit0 <- glm(y ~ 1, family=binomial)
pred0 <- predict(fit0, type='response')
inf.null <- t(mm) %*% diag(binomial()$variance(mu=pred0)) %*% mm
sc.null <- t(mm) %*% c(y - pred0)
score.stat <- t(sc.null) %*% solve(inf.null) %*% sc.null ## compare to chisq
pchisq(score.stat, 1, lower.tail=F)

Birleşme ölçüsü olarak çok güçlü istatistiksel önem verir. Bir adım tahmincisinin 50.7'lik bir test istatistiği ürettiğini ve buradaki puan testinin 45.75 pf test istatistiklerini ürettiğini unutmayın. $\chi^2$

> pchisq(scstat, df=1, lower.tail=F)
             [,1]
[1,] 1.343494e-11

Her iki durumda da, bir VEYA sonsuzluğa dair çıkarımınız var.

ve bir güven aralığı için medyan yansız tahminleri kullanın.

Ortanca yansız kestirimi kullanarak, sonsuz oran oranı için medyan yansız, tekil olmayan% 95 CI üretebilirsiniz. epitoolsR'deki paket bunu yapabilir. Ve bu tahmin ediciyi burada uygulamanın bir örneğini vereceğim: Bernoulli örneklemesi için güven aralığı

— Adamo
kaynak

2

Bu harika, ama elbette bazı problemlerim var: (1) Olabilirlik oranı testi bilgi matrisini kullanmıyor; Bu sadece bunu yapan ve ayrılık varlığında feci bir şekilde başarısız olan Wald testidir. (2) Tek adımlı tahmin edicilere aşina değilim, ancak buradaki eğim tahmini çok düşük görünüyor. (3) Bir güven aralığı medyan yansız değildir. Bu bölümde bağlantı kurduğunuz nokta ortadaki güven aralığıdır. (4) LR veya puan testlerini tersine çevirerek güven aralıkları alabilirsiniz. ...

— Scortchi

... (5) argüman vererek Ar skor testi yapabilirsiniz test="Rao"için anovafonksiyonu. (Eh, son ikisi not değil,

— kelime oyunu

@scortchi, anova'nın varsayılan puan testlerine sahip olduğunu bilmek güzel! Belki bir el ile uygulama yararlıdır. CI'ler medyan tarafsız değildir, ancak medyan tarafsız tahmin edici için CI sınır parametreleri için tutarlı çıkarım sağlar. P ortası böyle bir tahmin edicidir. P, bire bir dönüşümler için değişmeyen b / c oran oranına dönüştürülebilir. LR testi sınır parametreleri için tutarlı mı?

— AdamO

Yalnızca boş hipotez, Wilks teoreminin uygulanması için sınırda parametreler içermemelidir, ancak skor ve LR testleri sonlu örneklerde yaklaşıktır.

— Scortchi

2

R'nin bu uyarı mesajına dikkat edin . Andrew Gelman'ın bu blog gönderisine bir bakın ve bunun her zaman mükemmel bir ayrılık sorunu değil, bazen bir hata olduğunu göreceksiniz glm. Başlangıç değerleri, maksimum olabilirlik tahmininden çok uzaksa, patlar. İlk önce Stata gibi başka bir yazılımı kontrol edin.

Bu sorunu gerçekten yaşıyorsanız, bilgilendirici öncelikleri olan Bayesian modellemeyi kullanmaya çalışabilirsiniz.

Ancak pratikte sorun çıkaran belirleyicilerden yeni kurtuldum, çünkü daha önce nasıl bilgilendirici olacağımı bilmiyorum. Ama sanırım Gelman'ın bu mükemmel ayrılık problemi yaşadığınızda, bilgilendirici kullanımı hakkında bir makale var. Google'da Ara gitsin. Belki bir denemelisin.

— Manoel Galdino
kaynak

8

Kestiricilerin kaldırılmasındaki sorun, yanıtı en iyi açıklayan ve genellikle yapmayı hedeflediğiniz kestiriciyi kaldırmanızdır! Bunun, sadece modelinize fazla uyursanız, örneğin çok fazla karmaşık etkileşimler kurarak, mantıklı olacağını savunuyorum.

— Simon Byrne

4

Hata değil, ancak başlangıçtaki tahminlerin MLE'den çok uzakta olduğu bir problem. Bu, kendiniz seçmeye çalışmadığınızda ortaya çıkmayacak.

— Scortchi

Bunu anlıyorum ama bunun algoritmada bir Hata olduğunu düşünüyorum.

— Manoel Galdino 19:13

5

Peki 'bug' tanımı hakkında kelime oyunu yapmak istemiyorum. Ancak, davranışçı ne R ne temelde ne de aşina ne de ne de çözülemez - "başka bir yazılımı kontrol etmeniz" gerekmez. Birçok yakınsama dışı sorunla otomatik olarak ilgilenmek istiyorsanız, glm2paket, olasılıkların gerçekte her puanlama adımında arttığını kontrol eder ve adım boyutunu yarıya indirir.

— Scortchi

3

(CRAN'da), safeBinaryRegression bu tür sorunları teşhis etmek ve gidermek için tasarlanan R paketi vardır, ayırma veya kısma ayrımı olup olmadığından emin olmak için kontrol etmek için optimizasyon yöntemleri kullanılır. Dene!

— kjetil b halvorsen

2

Sorunuzdaki ifadelere katıldığımdan emin değilim.

Uyarı mesajının verilerinizde gözlenen X seviyesinin bir kısmı için , takılan olasılıkların sayısal olarak 0 veya 1 olduğunu düşünüyorum. Diğer bir deyişle, çözünürlükte 0 veya 1 olarak gösterilir.

Koşabilirsin predict(yourmodel,yourdata,type='response')ve orada 0 ve / ve 1'leri öngörülen olasılıklar olarak bulacaksın.

Sonuç olarak, sadece sonuçları kullanmanın uygun olduğunu düşünüyorum.

— StayLearning
kaynak

-1

Bunun eski bir gönderi olduğunu anlıyorum, ancak günlerce uğraştığım ve başkalarına yardımcı olabileceği için buna cevap vermeye devam edeceğim.

Komple ayırma, modele uyması için seçtiğiniz değişkenlerin 0 ve 1'ler arasında ya da evet ve hayır arasında doğru bir şekilde farklılıklar göstermesi durumunda gerçekleşir. Tüm veri bilimi yaklaşımımız olasılık tahminine dayanıyor ancak bu durumda başarısız oluyor.

Düzeltme adımları: -

Değişkenler arasındaki farkın düşük olması durumunda glm () yerine bayesglm () kullanın.
Bayesglm () ile birlikte (maxit = ”bazı sayısal değerler”) zaman zaman yardımcı olabilir

3. Model uydurma için seçili değişkenleriniz için garip ve en önemli kontrol, Y (outout) değişkeni ile çoklu eşliliğin çok yüksek olduğu bir değişken olmalı, bu değişkeni modelinizden atın.

Benim durumumda olduğu gibi, doğrulama verilerinin kaybını tahmin etmek için bir telekomünikasyon kesintisi verisine sahiptim. Eğitim verilerimde evet ile hayır arasında çok farklı olabilecek bir değişken vardı. Bıraktıktan sonra doğru modeli alabilirim. Daha fazla modelinizi daha doğru hale getirmek için kademeli (uygun) kullanabilirsiniz.

— yash
kaynak

2

Bu cevabın tartışmaya fazla katkı sağladığını görmüyorum. Bayesian yaklaşımı daha önceki cevaplarda ayrıntılı olarak ele alınmakta, "sorunlu" öngörücülerin kaldırılmasından da bahsedilmekte (ve önerilmemektedir). Kademeli değişken seçimi, bildiğim kadarıyla nadiren harika bir fikir.

— einar