Bu tuhaf biçimli dağılım nasıl modellenir (neredeyse ters J)


25

Aşağıda gösterilen bağımlı değişkenim bildiğim hiçbir hisse senedi dağıtımına uymuyor. Doğrusal regresyon, tahmin edilemeyen Y ile garip bir şekilde ilişkili olan (2 arsa) normal olmayan, sağa eğik artıkları üretir. Dönüşümler veya en geçerli sonuçları ve en iyi tahmin doğruluğunu elde etmenin başka yolları için herhangi bir öneriniz var mı? Mümkünse, 5 değere (örneğin% 0,% lo%,% med%,% 1 hi) kategorize etmekten sakınmaktan kaçınmak istiyorum.

görüntü tanımını buraya girin

görüntü tanımını buraya girin


7
Bize bu verileri ve nereden geldiklerini söylemekten daha iyi olurdu: bir şey doğal olarak aralığının ötesine uzanan bir dağılımı sıkıştırdı . Verileriniz için pek uygun olmayan bir ölçüm yöntemi veya istatistiksel prosedür kullanmış olabilirsiniz. Böyle bir hatayı sofistike dağıtım uydurma teknikleri, doğrusal olmayan ifadeler, binicilik vb. İle düzeltmeye çalışmak, hatayı bir araya getirir, bu yüzden sorunu tamamen aşmak iyi olur. [0,1]
whuber

2
@whuber - İyi bir düşünce, ancak değişken maalesef taşa yerleştirilmiş karmaşık bir bürokratik sistem aracılığıyla yaratıldı. Burada yer alan değişkenlerin doğasını açıklama yetkim yok.
rolando2

1
Tamam, bir şansa değdi. Verileri dönüştürmek yerine, gerilemeyi yapmak için bir ML prosedürü şeklindeki sıkma mekanizmasını hala tanımak isteyebileceğinizi düşünüyorum: bu, bunları hem sol hem de sağ-sansürlü veriler olarak görmeye benzer. .
whuber


2
Bu tür bir küvet ya da u şeklinde dağıtım, birçok kişinin tek bir yayını okuyacağı dergi okuyucusunda yaygındır, örneğin, bir doktorun ofisinde ya da her konuyu aralarında okur dağılmasıyla gören aboneler. Birkaç yorum ve cevap, beta dağılımına olası bir çözüm olarak işaret etti. Aşina olduğum literatür, beta-binomiye daha uygun bir seçenek olduğunu gösteriyor.
Mike Hunter

Yanıtlar:


47

Sansürlü regresyon yöntemleri bu gibi verileri işleyebilir. Artıkların normal lineer regresyondaki gibi davrandıklarını varsayıyorlar ancak değiştirilmişler.

  1. (Sol sansürleme): Verilerden bağımsız olan düşük bir eşikten küçük tüm değerler (ancak bir durumdan diğerine değişebilir) ölçülmedi; ve / veya

  2. (Doğru sansürleme): Yüksek bir eşikten daha büyük olan ve verilerden bağımsız (ancak bir durumdan diğerine değişebilen) tüm değerler ölçülmemiştir.

"Kantitatif değil", bir değerin eşiğinin altına (veya üstüne) düşüp düşmediğini bildiğimiz anlamına gelir, ama hepsi bu.

Montaj yöntemleri tipik olarak maksimum olasılık kullanır. vektörüne karşılık gelen yanıtı için model formda olduğundaXYX

Y~Xβ+ε

ile istatistiksel bağımsız ortak dağıtım sahip ile PDF (burada sonra, bilinmeyen "sıkıntı parametreleri" vardır) - sansürleme yokluğunda - gözlemler günlük olasılığını olduğunuF σ f σ σ ( x i , y i )εFσfσσ(xben,yben)

Λ=Σben=1ngünlükfσ(yben-xbenβ).

Mevcut sansürleme ile biz sınıfları (muhtemelen boş) üçe durumlarda bölebilir: indeksleri için ile , içeren alt eşik değerleri temsil eder ve sola sansürlenmiş verileri; indeksleri için için , ölçülür; ve geri kalan endeksler için, içeren üst eşik değerleri temsil eder ve sağ sansürlenmiş verileri. Günlük olasılığı, önceden olduğu gibi elde edilir: olasılıkların ürününün günlüğüdür.n 1 y i i = n 1 + 1 n 2 y i y iben=1n1ybenben=n1+1n2ybenyben

Λ=Σben=1n1günlükFσ(yben-xbenβ)+Σben=n1+1n2günlükfσ(yben-xbenβ)+Σben=n2+1ngünlük(1-Fσ(yben-xbenβ)).

Bu bir fonksiyonu olarak sayısal olarak maksimize edilir .(β,σ)

Tecrübelerime göre, bu gibi yöntemler verilerin yarısından daha azının sansürlenmesi durumunda iyi çalışabilir; Aksi takdirde, sonuçlar kararsız olabilir.


Burada,R OLS ve sansürlü sonuçların bol miktarda veri ile bile nasıl farklılaşabileceğini göstermek için censRegpaketi kullanarak basit bir örnek verilmiştir . Söz konusu verileri kalitatif olarak yeniden üretir.

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

: Haber gereken önemli ayrıntılar parametrelerdir gerçek eğim olan , gerçek kesişim ve gerçek hata SD ise .- 0.001 0.0050.005-0.0010.005

İkisini de kullanalım lmve censRegbir çizgiye uyacak şekilde:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

Tarafından verilen bu sansürlenmiş regresyon sonuçları print(fit)vardır

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

Bunlar sırasıyla , ve doğru değerlerine oldukça yakın .0,005 0,005-0.0010.0050.005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

Tarafından verilen EKK uyum, print(fit.OLS)olduğu

(Intercept)            x  
   0.001996     0.002345  

Uzaktan bile yakın değil! Tarafından bildirilen tahmini standart hata summaryolduğunu , yarısından az gerçek değerini. Bu tür önyargılar, çok fazla sansürlü veri içeren regresyonlara tipiktir.0.002864

Karşılaştırma için, regresyonun nicelenmiş verilerini sınırlayalım:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

Daha da kötüsü!

Birkaç resim durumu özetlemektedir.

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

Arsalar

"Varsayımsal veri" ve "sansürlenmiş veriler" araziler arasındaki fark aşağıdaki tüm y değerleri olmasıdır ya da yukarıda oluşturucuda ikinci arsa üretmek için ilgili eşik taşındı. Sonuç olarak, sansürlü verilerin alt ve üst kısımda sıralandığını görebilirsiniz.0.0100.01

Düz kırmızı çizgiler sansürlü uyumlar, her ikisi de yalnızca sansürlü verilere dayanarak OLS'a uyan mavi çizgilerdir . Kesikli yeşil çizgiler, yalnızca nicelenmiş verilere uyar. Hangisinin en iyisi olduğu açıktır: mavi ve yeşil çizgiler gözle görülür derecede zayıf ve sadece kırmızı (sansürlü regresyon için) doğru görünüyor. Sağdaki histogramlar, bu sentetik veri setinin değerlerinin aslında sorularınkilere benzer nitelikte olduğunu onaylar (ortalama = , SD = ). En sağdaki histogram, histogramın orta (nicelenmiş) kısmını ayrıntılı olarak gösterir.0.0032 0.0037Y0.00320.0037


büyük cevap (+1). Eğer iki sansür edici çiviyi görsel olarak çıkaracak olursak, bağımlı değişkenin üstel bir dağılıma yakın bir şeyleri varmış gibi görünüyor, sanki temel veriler bir işlemin uzunluğuymuş gibi. Bu dikkate almak bir şey mi?
user603

@ user603 Ölçülen değerleri, bir Gaussian'ın üst kolunun bir parçası ile simüle ettim, aslında :-). Burada dikkat etmeliyiz, çünkü ilgili olasılık modeli cevap değişkenine değil artıklara aittir . Biraz zor olsa da, bazı varsayımsal dağılıma uyumun iyi olup olmadığını değerlendirmek için sansürlü artık alanlar ve hatta sansürlü olasılık arazileri yapılabilir.
whuber

benim açımdan bir çifte sansür Gauss, kendisinden bir histogram ile sansürsüz değerler biraz düz olması gerektiğini, ama biz 0. uzaklaştıkça onlar yavaşça azalmaktadır ama
user603

1
@ user603 Ah, hayır, durum böyle değil: ölçülen değerlerin histogramına kendiniz bakın. Tıpkı soruda olduğu gibi neredeyse doğrusal olarak aşağı doğru eğimli görüneceklerdir.
whuber

2
Veri setimin sansürlü regresyonunu denedim ve sonuçlar OLS'dekinden daha iyi bir şekilde geçersiz hale getirildi. Benim araç setime güzel bir ek - thx.
rolando2

9

Değerler her zaman 0 ile 1 arasında mı?

Eğer öyleyse, bir beta dağılımı ve beta regresyonu düşünebilirsiniz.

Ancak, verilerinize yol açan süreci düşünmeyi unutmayın. Ayrıca 0 ve 1 şişirilmiş bir model de yapabilirsiniz (0 şişirilmiş modeller yaygındır, muhtemelen kendiniz tarafından 1 şişirmek gerekir). En büyük fark, bu sivri uçların 0 ve 1 'lerdeki çok sayıda veya 0 ve 1'e yakın değerleri temsil etmesidir.

En iyi yaklaşımı bulmak için yerel istatistikçilere danışmak en iyisi olabilir (açıklanamayan bir anlaşma ile verinin nereden geldiğinin ayrıntılarını tartışabilirsiniz).


2
01

Evet, her zaman% 0 ila% 1 aralığında ... Ve bu çiviler tam olarak% 0 ve% 1 seviyesinde. Sıfır veya sıfır ve bir şişirilmiş modeller, bunlar gibi sayılmamış verilere uygulanabilir mi?
rolando2

1
Sıfır şişirilmiş bir normal var, ancak burada geçerli değil.
Peter Flom - Eski Monica

Kesin 0'lar ve 1'lerle ancak aralarında sürekli gözüküyorsa, o bölgenin dışında kalan yerler 0 veya 1'e yuvarlanan altta sürekli bir dağılım olabilir gibi görünüyor. Bu, iki katına sansürlenmiş bir durum olacak ve modeller bu fikri kullanarak uygun olabilir.
Greg Snow,

4

İle uyum içinde Greg Snow'un tavsiyesi ben beta modelleri (bir Smithson & verkuilen 2006, bkz sıra bu tür durumlarda yararlıdır duydum Daha İyi Limon Sıkacağı (yanı sıra dilim regresyon) Bottai vd., 2010 ), ancak bu Öyle görünüyor ki belirgin zemin ve tavan efektleri uygun olmayabilir (özellikle beta regresyon).

Diğer bir alternatif, sansürlü regresyon modellerinin tiplerini, özellikle de sürekli (ve muhtemelen normal olan) bazı temel gizli değişkenlerin ürettiği gözlenen sonuçları göz önüne aldığımız Tobit Modelini düşünmektir. Bu temel modelin histogramınıza göre makul olduğunu söyleyemeyeceğim, ancak dağılımın (zemini yok sayarak) cihazın düşük değerlerinde daha yüksek bir yoğunluğa sahip olduğunu ve yavaşça daha yükseğe doğru kıvrıldığını gördüğünüz için destek bulabilirsiniz. değerler.

Yine de iyi şanslar, sansürleme o kadar çarpıcıdır ki, aşırı kovanların içinde çok yararlı bilgiler bulmayı hayal etmek zor. Bana öyle geliyor ki, numunenin neredeyse yarısı yere ve tavan kutularına düşüyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.