Aşağı örnekleme, lojistik regresyon katsayılarını değiştirir mi?


34

Çok nadir pozitif sınıflı bir veri kümem varsa ve negatif sınıfı aşağı örneklemem, sonra lojistik bir regresyon uygulamam, pozitif sınıfın prevalansını değiştirdiğim gerçeğini yansıtmak için regresyon katsayılarını ayarlamam gerekir mi?

Örneğin, 4 değişkenli bir veri kümesine sahip olduğumu varsayalım: Y, A, B ve C. Y, A ve B ikili, C sürekli. 11.100 gözlem için Y = 0 ve 900 Y = 1 için:

set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)

A, B ve C verilen Y'yi tahmin etmek için lojistik bir regresyon uyguluyorum

dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)

Bununla birlikte, zaman kazanmak için 900 Y = 0 ve 900 Y = 1 vererek 10.200 Y olmayan gözlemi kaldırabilirim:

require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)

İki modeldeki regresyon katsayıları çok benzer görünüyor:

> coef(summary(mod1))
              Estimate Std. Error   z value     Pr(>|z|)
(Intercept) -127.67782  20.619858 -6.191983 5.941186e-10
A           -257.20668  41.650386 -6.175373 6.600728e-10
B            -13.20966   2.231606 -5.919353 3.232109e-09
C           -127.73597  20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
              Estimate  Std. Error     z value    Pr(>|z|)
(Intercept) -167.90178   59.126511 -2.83970391 0.004515542
A           -246.59975 4059.733845 -0.06074284 0.951564016
B            -16.93093    5.861286 -2.88860377 0.003869563
C           -170.18735   59.516021 -2.85952165 0.004242805

Bu da aşağı örneklemenin katsayıları etkilemediğine inanmamı sağlıyor. Ancak, bu tek, tartışmalı bir örnek ve kesin olarak bilmeyi tercih ederim.


8
Bir kenara kesip, aşağı örneklemenizde ancak daha az hassasiyetle aynı popülasyon parametrelerini tahmin ediyorsunuz - yanıtın popülasyon prevalansını bildiğiniz zaman tahmin edebileceğiniz kesişme hariç. Bir kanıt için bkz. Hosmer ve Lemeshow (2000), Applied Logistic Regression , Ch 6.3. Bazen, çoğunluk tepkisini aşağıladığınızdan, yaygın olmasa da, ayrımı başlatabilirsiniz.
Scortchi

@Scortchi Yorumunuzu cevap olarak gönderin; bu sorum için yeterli görünüyor. Referans için teşekkürler.
Zach,

@Scortchi ve Zach: altörneklenir modele göre ( mod2), Pr(>|z|)için Aneredeyse 1. Biz katsayı dair hipotezi kabul edilemez olduğunu Abiz kullanılan bir değişken kaybetmiş böylece 0'dır mod1. Bu önemli bir fark değil mi?
Zhubarb

@ Zhubarb: Belirttiğim gibi, Wald standart hata tahminlerini tamamen güvenilmez hale getirerek ayırma işlemine başlayabilirsiniz.
Scortchi - Eski Monica

Ayrıca bkz. Scott 2006
StasK

Yanıtlar:


28

Aşağı örnekleme, tıbbi istatistiklerde vaka kontrol tasarımlarına eşdeğerdir; yanıtların sayısını sabitliyorsunuz ve değişken şekilleri (öngörüler) izliyorsunuz. Belki de kilit referans Prentice & Pyke (1979), "Lojistik Hastalık İnsidansı Modelleri ve Vaka-Kontrol Çalışmaları", Biometrika , 66 , 3'tür.

Bayes Teoremini, her bir durumu, iki durum olarak bir dava ya da kontrol olma şartına bağlı belirli bir ortak değişken modelinin olasılığı olasılığına göre yeniden yazmak için kullandılar; biri sıradan bir lojistik regresyonu temsil eden (bir değişkenli paternde koşullu bir durum ya da kontrol olma olasılığı), ve diğer ortak değişken paterninin marjinal olasılığını temsil eden. Marjinal bir vaka ya da kontrol olma ihtimalinin, örnekleme şemasıyla sabitlendiği kısıtlamaya tabi genel olasılığın en üst düzeye çıkarılmasının, birinci faktörü bir kısıtlama olmadan en üst düzeye çıkarmakla aynı oran oran tahminleri verdiğini gösterdi (yani sıradan bir lojistik regresyon gerçekleştirme). .

β0β^0π

β^0=β^0log(1ππn1n0)

n0n1

Tabii ki, toplama konusunda sorun yaşamaya başladığınız verileri atarak, en az faydalı olan bölüme rağmen, tahminlerinizin hassasiyetini azaltıyorsunuz. Bunu yapmak için bildiğim tek iyi hesaplama kaynakları konusundaki kısıtlamalar, ancak şunu söylüyorum çünkü bazı insanlar "dengeli bir veri setinin" hiçbir zaman tespit edemediğim başka bir sebep için önemli olduğunu düşünüyor gibi görünüyor.


Detaylı cevap için teşekkürler. Ve evet, bunu tam modeli çalıştırarak yapmamın nedeni (örnekleme olmadan) hesaplayıcı olarak yasaklayıcı.
Zach

Sevgili @ Scortchi, açıklama için teşekkürler, ancak lojistik regresyon kullanmak istediğim bir durumda, dengeli veri kümesi, hesaplama kaynaklarından bağımsız olarak gerekli görünüyor. "Firth’ın önyargılı azaltılmış ceza olasılığı olasılığı logit" i boşuna kullanmaya çalıştım. Görünüşe göre aşağı örnekleme benim için tek alternatif, değil mi?
Shahin

@Shahin Peki, (1) neden maksimum olasılığa uygun lojistik regresyondan mutsuzsunuz? & (2) Firth’ın yöntemini kullanarak neyin yanlış gittiğini?
Scortchi - Monica'yı yeniden kurun

@ Sccorchi, Sorun şu ki model, successörneklerin tespitinde çok kötü . Başka bir deyişle, çok düşük TPR. Eşiği değiştirerek, TPR artar ancak hassasiyet çok kötüdür, yani pozitif olarak etiketlenen örneklerin% 70'inden fazlası gerçekten olumsuzdur. Nadir olaylarda, lojistik regresyonun işe yaramadığını, Firth'ın metodunun devreye girdiği ya da alabileceği rollerden en az birinin olduğunu okudum. Fakat Firth'ın yönteminin sonuçları, her zamanki logit ile çok benzerdi. Firth'ın işinde yanılmış olabileceğimi düşündüm, ama görünüşe göre her şey yolunda değil
Şahin

3
@Shahin: Orada yanlış ağaca havlıyormuş gibi görünüyorsun: aşağı örnekleme, modelinizin ayrımcılığını iyileştirmeyecek. Önyargı düzeltmesi veya düzenli hale getirme (yeni verilerde - test setindeki performansını değerlendiriyor musunuz?), Ancak daha karmaşık bir özellik belki yardımcı olabilir veya daha fazla bilgilendirici öngörücülere ihtiyacınız olabilir. Muhtemelen veri, konu içeriği, model, teşhis ve amaçlarınız hakkında ayrıntılı bilgi veren yeni bir soru sormalısınız.
Scortchi - Monica'yı yeniden kurun
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.