Sansürlü regresyon yöntemleri bu gibi verileri işleyebilir. Artıkların normal lineer regresyondaki gibi davrandıklarını varsayıyorlar ancak değiştirilmişler.
(Sol sansürleme): Verilerden bağımsız olan düşük bir eşikten küçük tüm değerler (ancak bir durumdan diğerine değişebilir) ölçülmedi; ve / veya
(Doğru sansürleme): Yüksek bir eşikten daha büyük olan ve verilerden bağımsız (ancak bir durumdan diğerine değişebilen) tüm değerler ölçülmemiştir.
"Kantitatif değil", bir değerin eşiğinin altına (veya üstüne) düşüp düşmediğini bildiğimiz anlamına gelir, ama hepsi bu.
Montaj yöntemleri tipik olarak maksimum olasılık kullanır. vektörüne karşılık gelen yanıtı için model formda olduğundaXYX
Y∼ Xβ+ ε
ile istatistiksel bağımsız ortak dağıtım sahip ile PDF (burada sonra, bilinmeyen "sıkıntı parametreleri" vardır) - sansürleme yokluğunda - gözlemler günlük olasılığını olduğunuF σ f σ σ ( x i , y i )εFσfσσ( xben, yben)
Λ = ∑i = 1ngünlükfσ( yben- xbenβ) .
Mevcut sansürleme ile biz sınıfları (muhtemelen boş) üçe durumlarda bölebilir: indeksleri için ile , içeren alt eşik değerleri temsil eder ve sola sansürlenmiş verileri; indeksleri için için , ölçülür; ve geri kalan endeksler için, içeren üst eşik değerleri temsil eder ve sağ sansürlenmiş verileri. Günlük olasılığı, önceden olduğu gibi elde edilir: olasılıkların ürününün günlüğüdür.n 1 y i i = n 1 + 1 n 2 y i y ii = 1n1ybeni = n1+ 1n2ybenyben
Λ = ∑i = 1n1günlükFσ( yben- xbenβ) + ∑i = n1+ 1n2günlükfσ( yben- xbenβ) + ∑i = n2+ 1ngünlük( 1 - Fσ( yben- xbenβ) ) .
Bu bir fonksiyonu olarak sayısal olarak maksimize edilir .( β, σ)
Tecrübelerime göre, bu gibi yöntemler verilerin yarısından daha azının sansürlenmesi durumunda iyi çalışabilir; Aksi takdirde, sonuçlar kararsız olabilir.
Burada,R
OLS ve sansürlü sonuçların bol miktarda veri ile bile nasıl farklılaşabileceğini göstermek için censReg
paketi kullanarak basit bir örnek verilmiştir . Söz konusu verileri kalitatif olarak yeniden üretir.
library("censReg")
set.seed(17)
n.data <- 2960
coeff <- c(-0.001, 0.005)
sigma <- 0.005
x <- rnorm(n.data, 0.5)
y <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen <- y
y.cen[y < 0] <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))
: Haber gereken önemli ayrıntılar parametrelerdir gerçek eğim olan , gerçek kesişim ve gerçek hata SD ise .- 0.001 0.0050.005- 0,0010.005
İkisini de kullanalım lm
ve censReg
bir çizgiye uyacak şekilde:
fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)
Tarafından verilen bu sansürlenmiş regresyon sonuçları print(fit)
vardır
(Intercept) x sigma
-0.001028 0.004935 0.004856
Bunlar sırasıyla , ve doğru değerlerine oldukça yakın .0,005 0,005- 0,0010.0050.005
fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)
Tarafından verilen EKK uyum, print(fit.OLS)
olduğu
(Intercept) x
0.001996 0.002345
Uzaktan bile yakın değil! Tarafından bildirilen tahmini standart hata summary
olduğunu , yarısından az gerçek değerini. Bu tür önyargılar, çok fazla sansürlü veri içeren regresyonlara tipiktir.0.002864
Karşılaştırma için, regresyonun nicelenmiş verilerini sınırlayalım:
fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)
(Intercept) x[0 <= y & y <= 0.01]
0.003240 0.001461
Daha da kötüsü!
Birkaç resim durumu özetlemektedir.
lineplot <- function() {
abline(coef(fit)[1:2], col="Red", lwd=2)
abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")
"Varsayımsal veri" ve "sansürlenmiş veriler" araziler arasındaki fark aşağıdaki tüm y değerleri olmasıdır ya da yukarıda oluşturucuda ikinci arsa üretmek için ilgili eşik taşındı. Sonuç olarak, sansürlü verilerin alt ve üst kısımda sıralandığını görebilirsiniz.0.0100.01
Düz kırmızı çizgiler sansürlü uyumlar, her ikisi de yalnızca sansürlü verilere dayanarak OLS'a uyan mavi çizgilerdir . Kesikli yeşil çizgiler, yalnızca nicelenmiş verilere uyar. Hangisinin en iyisi olduğu açıktır: mavi ve yeşil çizgiler gözle görülür derecede zayıf ve sadece kırmızı (sansürlü regresyon için) doğru görünüyor. Sağdaki histogramlar, bu sentetik veri setinin değerlerinin aslında sorularınkilere benzer nitelikte olduğunu onaylar (ortalama = , SD = ). En sağdaki histogram, histogramın orta (nicelenmiş) kısmını ayrıntılı olarak gösterir.0.0032 0.0037Y0.00320.0037